我走過太多的路,卻走不出DDRX調(diào)試的套路
發(fā)布時間:2022-04-25 15:20
作者:一博科技高速先生周偉
陽春三月,春暖花開,草長鶯飛,處處透著生機和浪漫,也是一年中最美好的時光,可是由于疫情,很多人的生活、工作等節(jié)奏和安排也都被打亂了,雪上加霜的是,攻城獅豹哥還遇到了一件尷尬的事情,之前設(shè)計的一個項目在研發(fā)打樣階段調(diào)試一切正常,這次重新生產(chǎn)貼片了幾百片小批量的,結(jié)果卻發(fā)現(xiàn)有一些不良,關(guān)鍵是還沒有找到解決辦法,天天被客戶催著找問題,真是一個頭兩個大。
問題主要如下群聊內(nèi)容所示:
初始反饋的信息可以總結(jié)一下就是:前面做了多次小批量一站式的試產(chǎn),都沒有出現(xiàn)過問題,本次在我司生產(chǎn)完測試沒有問題,拉到客戶端測試就有時好時壞的現(xiàn)象,主要問題是CPU在啟動過程中DDR初始化失敗,還沒有找到解決方案,導(dǎo)致整機生產(chǎn)發(fā)貨嚴(yán)重脫離計劃節(jié)點,也就是整個項目的交期延遲了。
客戶問題無小事,這是我們的服務(wù)宗旨。我們立即和客戶一起成立了項目攻關(guān)組,大家分頭行動,從自己的專業(yè)角度去提供各自的一些解決問題的方法。在焊接領(lǐng)域,客戶提出了虛焊的可能,同時也說到重新焊接了CPU芯片的板子后面狀態(tài)就正常了,所以首先安排一些啟動異常的板子拿去焊接廠用3D X-ray看看是否有虛焊的可能,焊接廠反饋回來的部分結(jié)果如下所示。
深圳和珠海工廠的3D x-ray檢測結(jié)果出來了,都沒有發(fā)現(xiàn)焊接問題,CT掃描非常耗時,深圳昨天寄過去的板子建議就不要照了,沒有多大意義;附件為珠海工廠3D x-ray檢測設(shè)備檢測結(jié)果如附件,沒有發(fā)現(xiàn)錫球不規(guī)則、無枕頭效應(yīng)、無大小錫球等問題。
術(shù)業(yè)有專攻,雖然看不懂3D X-ray的結(jié)果,但從圖片來看,肉眼基本看不出太大的差別,作為門外漢的我看到的就是焊球基本一樣,顆粒飽滿均勻,沒有出現(xiàn)某單個球有明顯的不規(guī)則缺陷,可以初步排除這個板子虛焊的可能。這也是我們工廠的大利(sha)器,焊接質(zhì)量好不好一照便知。雖然照了3D,但我們還是又對調(diào)了好板子上的芯片并重新進行了焊接測試,問題還是沒有解決。
焊接排除的同時,我們也在同步對PCB制板進行排除驗證,制板的檢驗,除了切片等破壞性測試外,和信號電氣相關(guān)的就是看阻抗是否滿足制板要求,這個可以通過實測線路阻抗來驗證,于是該我們的67GHz網(wǎng)分上場了。板子到了我們的高速實驗室,我們馬上就進行了DDR4信號部分的阻抗測試,如下是DDR4單線部分設(shè)計的阻抗要求。
部分實際測試的阻抗如下圖所示。
數(shù)據(jù)信號阻抗要求39±5ohm,實測阻抗在36~40ohm,阻抗?jié)M足要求。
地址控制信號阻抗要求36±5ohm,實測主干段線路阻抗在35.6ohm左右,阻抗?jié)M足要求。
從阻抗實測的結(jié)果來看,基本可以排除PCB制板的問題,所以這個時候從信號完整性的角度開始了我們常規(guī)性套路的排查。
首先就是了解一下問題發(fā)生的情況,看看哪些現(xiàn)象可能是信號完整性造成的,比如降頻是否工作,一般DDRx降頻能工作的,基本就可以排除焊接、硬件原理方面的問題,然后集中精力從PCB設(shè)計、電源噪聲、信號質(zhì)量及軟件配置等方面看看是不是系統(tǒng)時序裕量不足造成的問題。
此時出來了兩個小插曲,一個是客戶反饋本次顆粒換了另一個型號的料號,封裝上有一點小小的改動,但引腳什么的都沒有變化,這是本次和上次硬件上唯一的區(qū)別;另一個就比較詭異了,客戶反饋之前不行的,裝個散熱片按壓下又好了,反向按壓下又不好了(這個感覺有點像靈異事件,其實我們也經(jīng)常聽其他客戶提到過),這導(dǎo)致我們定位問題變得又撲朔迷離了。
新的反饋導(dǎo)致我們有了新的方向和初步的結(jié)論,就是調(diào)換之前的顆粒重新焊接再測試下,如果問題解決那就萬事大吉。
另一方面我們還想按照我們的常規(guī)套路降頻再嘗試(掙扎)一下,客戶也非常的配合,但接下來的結(jié)論又把問題引到了一個新的方向。
降頻的方案說明有效果,之前出問題的現(xiàn)象重復(fù)多次不再復(fù)現(xiàn),這個就可以果斷排除硬件原理、虛焊的可能,剩下的還是要從系統(tǒng)的時序裕量不足上去排除。另外之前吊詭的按壓現(xiàn)象也只是偶然的成功現(xiàn)象,不足以作為解決問題的方向,所以只能算是查找問題過程中的一個小插曲,進一步排除了虛焊的可能,也進一步說明了我們套路上一開始的思路是對的,只是中間方向太多,客戶也沒閑著,比我們更著急,所以各項工作都是相互并行在走。
系統(tǒng)時序裕量不足,這個確實是可以通過仿真和實測對比的手段去定位,于是找到壓死駱駝最后一根稻草的任務(wù)又落在了我們身上。
對于這種有實物的板子,我們的套路一般是先通過示波器測到板子上實際的信號,然后將實測的波形數(shù)據(jù)導(dǎo)入到仿真軟件中和仿真結(jié)果進行對比,如果在同樣的位置上仿真和測試波形一致,那么就基本可以確定芯片的模型是比較準(zhǔn)確的,然后就可以通過仿真看到芯片內(nèi)部真實的接收波形,從而根據(jù)波形好壞來定位問題。而目前的板子由于
DDR4
顆粒是正反貼片,除了焊接
DDR4 interposer
夾具我們沒法通過常規(guī)的手段來測試,但時間寶貴,最后我們退而求其次,在時鐘信號的端接電阻處進行了測試,一般時鐘信號不需要任何其他的命令,只要系統(tǒng)可以跑起來就一直會有波形,所以我們可以先在時鐘的端接電阻上測試到信號,然后在同樣的位置上進行仿真對比,仿真和實測的部分對比結(jié)果如下圖所示。
信號波形本身的質(zhì)量還不錯,從波形來看,兩者上升沿和下降沿基本可以完全對齊,除了幅度上有一些小的差異外,其他基本都是可以對上的,所以這個也可以反映出芯片的模型是可信的,仿真的結(jié)果可信,可以進行下一步全面的信號及時序仿真排除了。
就在我們準(zhǔn)備大展拳腳開始仿真的時候,客戶突然說問題找到了,原來還真是軟件配置的問題,由于更換DDR4顆粒后實際參數(shù)發(fā)生了變化,而配置軟件還是按照之前的參數(shù)在控制,導(dǎo)致系統(tǒng)參數(shù)比較臨界,產(chǎn)生了部分系統(tǒng)不穩(wěn)定現(xiàn)象,最終更新了軟件的配置參數(shù),問題得到解決。
問題兜兜轉(zhuǎn)轉(zhuǎn),沒想到竟然以這種意想不到的結(jié)果結(jié)束,真是幸福來得太快就像龍卷風(fēng),我竟有點措手不及的感覺,我們的工程師豹哥就是被太多這種摸不著頭腦的“幸?!备愣d的。
所幸問題最終定位了,豹哥也松了口氣,雖然一波三折沒有直接定位到問題,但大家積極配合的態(tài)度還是充分得到了客戶的認(rèn)可。從這個案例里面豹哥也得出了一些調(diào)試的套路,總結(jié)如下也和各位吃瓜粉絲們一起分享:
1、對于大多數(shù)信號問題,可以先降頻試試,如果降到了最低還是沒有任何改善,通常就需要從其他方面如硬件原理、軟件、制板或焊接等去找問題了,如果降頻有改善,那就和信號本身有關(guān),可以從信號質(zhì)量、電源、時序及軟件配置等方面去找問題;
2、工欲善其事,必先利其器。在本次查找問題過程中,我們先后動用了3D X-ray、CT掃描(掃描比較慢,文章沒有秀出來)、BGA返修臺、67GHz ZVA矢量網(wǎng)絡(luò)分析儀、59GHz示波器、仿真工具等,這好比對待一個重癥患者,各種儀器齊上陣,最終通過先進的儀器來查出病癥,對癥下藥。要想在PCB這個行業(yè)有所突破,沒有這幾把刷子也只能是徒勞。記得有位前輩戲謔過,以前在調(diào)試前都是要先去旁邊的廟里拜一拜,也間接說明調(diào)試確實不是那么容易的事,只能說坑(套路)太多。
大家在調(diào)試過程中遇到過哪些坑,也一起來分享下吧。