電子電路中偶發(fā)故障的成因與探查方法
批量生產(chǎn)的電子產(chǎn)品在投入市場(chǎng)應用后,常會(huì )有個(gè)別出現一些偶發(fā)故障,退回到廠(chǎng)家實(shí)驗室后,施加各種應力進(jìn)行故障激發(fā)試驗,卻又不能故障再現;還有一種情況是研制的有限臺數樣機產(chǎn)品,長(cháng)時(shí)間拷機運行中,個(gè)別臺次有很低概率的偶發(fā)故障,或者可自行恢復,或者經(jīng)過(guò)人工重啟后也能恢復,但人為施加各種應力進(jìn)行試驗,卻不能再現?;蛘呒词构收显佻F了,卻需要超常規高應力的激發(fā),在現實(shí)工況中,這種應力又根本不會(huì )存在,這樣的實(shí)驗方法即使有故障再現,也缺乏技術(shù)支持的說(shuō)服力。
本文引用地址:http://dyxdggzs.com/article/202305/446372.htm在生產(chǎn)檢驗階段,批量較大的產(chǎn)品,限于制程過(guò)程成本,不太可能做到逐臺的全性能檢驗,只能采用抽樣的方式,抽取少量的樣機進(jìn)行全性能參數的測試(大多數機器做主要參數測試即可),然后將抽樣樣機的測試結果與預期設計性能指標對比,如果都在指標要求范圍內,則批次性放行。但是這種貌似合理的方法里,卻蘊藏著(zhù)一個(gè)大隱患,就是小概率隱患的機器抽樣時(shí)抽不到的問(wèn)題。
如何確認單臺產(chǎn)品工作狀態(tài)的穩定性,以及多臺產(chǎn)品批次生產(chǎn)質(zhì)量控制的一致性這兩個(gè)問(wèn)題呢?這兩項是產(chǎn)品質(zhì)量可靠性的核心問(wèn)題。這兩個(gè)問(wèn)題的成因、機理、檢測方法,是本文研究的主題。
1 方法描述
下面用類(lèi)比的方法來(lái)解釋偶發(fā)故障問(wèn)題的機理。假設1 個(gè)班級,有50 個(gè)孩子,兩周后要去市里參加統考,如果100% 的孩子統考都及格則重獎老師。作為老師,一般會(huì )先出1 套模擬試卷做摸底測驗,如果摸底的結果是50 個(gè)孩子都及格,那兩周后的市統考是不是也一定能保證100% 及格呢?答案自然是不能肯定的。雖然都及格了,但50 個(gè)孩子的分數從60~100 分都有,按照常識判斷,60~65 分的孩子統考不及格的風(fēng)險概率就會(huì )大一些??墒沁@幾個(gè)孩子就一定會(huì )不及格嗎?答案是也不一定。
每個(gè)孩子的實(shí)際水平會(huì )是一個(gè)基數,考試的次數足夠多,其分數就會(huì )圍繞這個(gè)基數波動(dòng),這個(gè)基數就是多次考試結果的均值μ,用(圖1)來(lái)解釋?zhuān)珹 孩子多次考試的均值μa = 64,B 孩子的均值為μb = 72,當A 某次考試的種種隨機原因影響,則有一定的小概率跌到60分以下;而B(niǎo) 因為實(shí)際水平均值在72 分,即使發(fā)生一些隨機因素影響,即便考砸的后果也能在65 分以上。
圖1
A 和B 這兩類(lèi)不及格的原因會(huì )有所區別,A 會(huì )因為成績(jì)均值水平偏低(μa = 64)和隨機概率事件(如題型變化、心理變化等)引起的波動(dòng)導致小概率性不及格;B 則基本不太會(huì )因為常規隨機小概率事件影響導致不及格,但它有另一種隱患,就是可能會(huì )因為發(fā)生大的特定意外(如發(fā)燒、牙疼、情感受挫等)而不及格。
因此,為了確保參加市統考的50 個(gè)孩子都能及格,就可以針對可能不及格的因素,針對性地做好預防,對A 類(lèi)孩子強化補課,補課把分數都提高到80 分以上;對B 類(lèi)孩子呵護有加,防止考前發(fā)生大的意外,比如封閉管理,清淡飲食,禁止激烈對抗性運動(dòng)等。做好這兩點(diǎn),隨機小事件不至于導致不及格,個(gè)別大意外不會(huì )發(fā)生或者即使發(fā)生也不讓它影響到考試,批量統考不及格問(wèn)題便迎刃而解。
依據如上道理,做類(lèi)比分析,1 臺產(chǎn)品里,假設有50 個(gè)參數,每個(gè)參數類(lèi)比于1 個(gè)孩子的成績(jì),參數的類(lèi)型有電壓、電流、溫度、扭矩、流量、壓力等,每個(gè)參數在工作中多少總有點(diǎn)波動(dòng),但設計師在產(chǎn)品設計上對這些波動(dòng)也會(huì )有一定的容忍度,這個(gè)容忍度的邊界便是及格線(xiàn)60 分。在廠(chǎng)區里拷機的時(shí)候設備一切正常,可以理解成摸底考試的每個(gè)參數都在60 分以上。
但到了客戶(hù)現場(chǎng)后,工況條件有所變化,這些參數工作時(shí)會(huì )有所波動(dòng),原來(lái)在廠(chǎng)區A 類(lèi)的參數(類(lèi)比A類(lèi)的孩子)因現場(chǎng)隨機工況導致波動(dòng)偶發(fā)偏大,參數低于60 分臨界值的小概率偶發(fā)故障就可能發(fā)生了。隨機事件在現場(chǎng)是不可消除的,解決方法是提高A 類(lèi)孩子的均值分數,即使有隨機事件減分的影響,也不至于低于及格線(xiàn),便可降低整機的故障概率了。
而遠離臨界值余量比較大的B 類(lèi)參數(類(lèi)比為B類(lèi)的孩子),常規的一般性波動(dòng),不會(huì )造成小概率的偶發(fā)故障,但有可能因為突發(fā)大事件工況導致B 類(lèi)參數也會(huì )超出臨界值,如電機的突然啟停、突然的沖擊振動(dòng)等。解決方法是抑制大事件的幅度、處理大事件耦合過(guò)來(lái)的影響程度、提高受擾部分的抗擾能力,便可降低B 類(lèi)問(wèn)題的故障概率。
理解了如上的原理,針對偶發(fā)故障的探查方法就可以得出如下幾條思路:
1)對于現場(chǎng)的偶發(fā)故障,故障機器返廠(chǎng)回實(shí)驗室后,不必再把故障復現作為首選工作方案,因為這種小概率偶發(fā)故障有可能根本復現不了,就好像A類(lèi)的孩子,摸底考三五份試卷,不一定肯定會(huì )低于60 分,考上千份試卷或許可能有一兩次不及格,但時(shí)間成本、試驗費用,又不能接受。
2)根據故障現象,分析可能導致此問(wèn)題的被懷疑參數;
3)查出每個(gè)被懷疑參數的臨界值(電學(xué)參數可查閱信號接收入口端的電壓或電流容限[1]);
4)若故障機器不方便返廠(chǎng),甚至可以找1 臺跟故障機器在設計方案、器件型號和廠(chǎng)家、工藝幾方面完全相同的機器,對被懷疑的問(wèn)題參數(數據或波形)進(jìn)行測量;
5)將測試結果與臨界值(類(lèi)比于60 分及格線(xiàn))做對比,評估出其大概分數,定性分析看是否在臨界值以上的余量是否夠大;
6)對測量出的在常態(tài)工作下參數分值都高出60 分余量不多的參數,進(jìn)行專(zhuān)項整改,提高其常態(tài)均值。然后做批量驗證,如果偶發(fā)小概率故障不再出現的話(huà),整改方案則可評審通過(guò)。完美避開(kāi)故障再現不能實(shí)現的難題。這個(gè)做法類(lèi)比對應針對A 類(lèi)孩子的做法;
7)檢查產(chǎn)品中的功能模塊、以及產(chǎn)品周邊配套的設備,是否有瞬態(tài)啟停的大功率工況。搭建模擬實(shí)驗環(huán)境,人為制造這種工況,在相應工況下,測試余量較大的被懷疑相關(guān)參數,檢查波動(dòng)時(shí)是否有低于或接近于臨界值的情況,如果有,則針對這種工況下的參數進(jìn)行整改,整改后,做單臺測試,模擬干擾工況下,該參數波動(dòng)值都能遠離臨界值,整改方案則可評審通過(guò)。這個(gè)做法類(lèi)比針對B 類(lèi)孩子的做法。
2 量化分析
通過(guò)對參數數據的風(fēng)險評估,判斷偶發(fā)故障是否由該參數引起,僅靠定性判斷既缺乏說(shuō)服力,也讓技術(shù)決策比較困難。因此需要有定量的分析方法。以信號電壓參數波動(dòng)導致出現偶發(fā)故障示例來(lái)說(shuō)明量化分析的步驟,以便據此判斷是否由此參數導致的偶發(fā)故障、也可根據分析結果預測實(shí)際產(chǎn)品的偶發(fā)故障概率值。
1)首先測試該波形,然后隨機取樣,取樣值數量應具備統計參考價(jià)值,可根據統計參考價(jià)值和實(shí)際操作的時(shí)間和人力成本綜合決定,推薦適當多取一點(diǎn),也可根據統計采樣樣本量的計算公式來(lái)[2],按照顯著(zhù)性水平5%,置信水平95%,計算得出適用的樣本數量。
2)取樣后,計算電壓值的均值μ 和標準差σ;
3)計算電路參數,確認電路對該輸入電壓要求的臨界值Vmax、Vmin 的具體值,這個(gè)值要結合具體電路確定,如5 V CMOS 數字芯片,輸入信號管腳的高電平臨界判定電壓一般為0.7×Vcc=3.5 V,常規標稱(chēng)值為4.9~5 V,最大允許值為Vcc+0.5 V,意指該管腳允許輸入的電壓應該在(3.5 V,5.5 V)之間,超出這個(gè)區間,則有可能損壞或者電平信號出錯;
4)對比計算參數和電壓臨界值參數,如3)中示例,至少需要滿(mǎn)足如下條件:
5)如果不滿(mǎn)足4)的條件,則需對該電路的紋波進(jìn)行整改,反復迭代,最終滿(mǎn)足要求。計算的過(guò)程可以借助EXCEL 或者統計分析軟件的強大計算功能來(lái)完成,以節省人力。
6)根據2)計算出的均值μ 和標準差σ 的結果,在不整改的情況下,看臨界值在統計分布中的位置,利用正態(tài)分布的計算方法[3],可以計算出超出臨界值的發(fā)生概率,由此推斷出現場(chǎng)工況下的偶發(fā)故障概率。
3 案例應用
某產(chǎn)品電源電壓紋波大,是偶發(fā)故障的疑似根源,波形如圖2。
圖2
圖2 為5 V 的電源紋波波形圖(該圖為交流耦合測試結果),通過(guò)功能分析,產(chǎn)品偶發(fā)故障疑似與此電源的波動(dòng)相關(guān),于是測試該波形。結合電路分析,導致偶發(fā)故障的是下降的尖峰電壓,因為信號電壓直接跟隨電源電壓而波動(dòng),本應該輸出高電平信號,卻因為下沖的電源電壓導致輸出端的高電平電壓低,發(fā)送到接收端時(shí)可能識別不出來(lái)。以紋波電壓為研究對象,按照本文第三章的方法進(jìn)行測試分析。
1)以下沖的尖峰為研究對象,結合工程經(jīng)驗,這些突出的尖峰一般是開(kāi)關(guān)電源的MOSFET 開(kāi)和關(guān)瞬間形成的,預估定義下沖200 mV 以?xún)鹊牟▌?dòng)為電路的隨機事件引發(fā),超出200 mV 的為開(kāi)、關(guān)瞬態(tài)導致,而開(kāi)關(guān)瞬態(tài)形成的尖峰組事件也符合隨機事件的特征,以時(shí)間軸為抽樣點(diǎn),連續抽取下沖超出200 mV 的每個(gè)尖峰的電壓值,并記錄采樣數據1 000 個(gè)。
2)計算該下沖電壓的均值μ 和標準差σ(因為是下降電壓,低于基線(xiàn)電壓,因此是個(gè)負數);
3)計算電路參數,確認對電源Vcc 要求的低電平臨界值Vcc min;
4)對比計算參數和Vcc 臨界值參數,應滿(mǎn)足如下條件(由本節2)中可知,此公式中μ、σ 均為負值):
5)若不滿(mǎn)足4)的條件,則需對紋波進(jìn)行整改抑制。
反復整改迭代直到滿(mǎn)足的要求。
4 結束語(yǔ)
總結起來(lái),本文的核心描述了偶發(fā)故障的兩個(gè)成因和解決方法,總結如下:
1)超出臨界值余量不多的參數,即在及格線(xiàn)以上附近波動(dòng)的參數是偶發(fā)故障的根源之一,這里命名為“60分原理”,針對這類(lèi)參數進(jìn)行整改提升,使參數值達到80,甚至90 分以上即可。這樣,可以繞開(kāi)故障再現的難題,在隱患產(chǎn)品正常工作的情況下,卻可以定位到問(wèn)題點(diǎn)、找到解決問(wèn)題的目標對象和措施。量化值判斷的方法和故障概率的評估可運用正態(tài)分布的原理和計算方法作為指導。
2)另一種引起偶發(fā)故障的根源是產(chǎn)品內大功率模塊、以及周邊配套的大功率設備,在瞬態(tài)啟停的工況下,將本來(lái)余量足夠大、隨機干擾根本不足以導致其故障的參數,給影響到了超出限制引起故障的地步。這部分的具體實(shí)驗方法和機理比較易于理解,因此在本文中未做重點(diǎn)展開(kāi)和案例說(shuō)明,但它仍是一個(gè)需要重點(diǎn)關(guān)注的點(diǎn)和解決思路。
參考文獻:
[1] 武曄卿,李東偉,石小兵.電路設計工程計算基礎[M].北京:電子工業(yè)出版社,2018,7.
[2] 賈俊平,何曉群,金勇進(jìn).統計學(xué)[M].第六版.北京:中國人民大學(xué)出版社,2015,1.
(本文來(lái)源于《電子產(chǎn)品世界》雜志2023年4月期)
評論