計算機系統的容錯技術(shù)方法
摘要: 隨著(zhù)計算機技術(shù)的發(fā)展,計算機系統的可靠性越來(lái)越受到人們的重視,而容錯技術(shù)是提高可靠性的一種有效方法。本文研究了計算機容錯技術(shù)的各種方法,如硬件容錯、信息容錯、軟件容錯等,介紹了TMR(三模冗余)的原理及其缺點(diǎn),詳細研究了兩種最基本的軟件容錯技術(shù)NVP和RB。這些容錯技術(shù)可有效提高計算機系統的可靠性。
本文引用地址:http://dyxdggzs.com/article/202502.htm計算機的應用十分廣泛,航空航天、軍事、銀行監管系統、交通運輸系統以及其他重要的工業(yè)領(lǐng)域對計算機的可靠性要求非常高。計算機系統出現故障不僅會(huì )導致國家財產(chǎn)的嚴重損失,還會(huì )危及人身安全。因此,在這些領(lǐng)域中計算機的可靠性越來(lái)越受到人們的重視,國家非常重視可靠性的研究工作,投入了大量的資源。
1 基本容錯技術(shù)
一般而言,提高計算機的可靠性有兩種比較有效的方法。一種是避錯,就是避免出現故障,這就需要嚴格篩選計算機元器件,完善設計,提高制造工藝,以及加強質(zhì)量管理等。但即使是這樣一個(gè)計算機系統,由于其所在的工作環(huán)境有各種環(huán)境應力,如濕度、溫度、電磁干擾、強震動(dòng)等,因此總避免不了出現故障。這就要求在計算機出現故障的情況下容忍故障的存在,即第二種方法--容錯技術(shù)。容錯技術(shù)最早由約翰·馮·諾依曼(John VON Neumann)提出,所謂容錯是指在出現一個(gè)或者幾個(gè)硬件或軟件方面的故障或錯誤的情況下,計算機系統能夠檢測出故障的存在并采取措施容忍故障,不影響正常工作,或者在能夠完成規定的任務(wù)的情況下降級運行[1]。
故障是指由于部件的物理失效、環(huán)境應力的作用、操作錯誤或不正確的設計,引起系統的硬件或軟件的錯誤狀態(tài)[2]。下面介紹幾種相關(guān)技術(shù)的基本概念。
故障檢錯技術(shù):對于計算機系統的容錯首先要用到故障檢錯技術(shù),即在計算機系統發(fā)生故障的情況下能夠檢測出故障的存在。
故障診斷技術(shù): 檢測出系統存在故障后要進(jìn)行故障的定位,找出故障所在的位置。
故障恢復技術(shù): 在檢測出故障和定位故障的所在位置之后,就要運用故障恢復技術(shù)把系統從故障的狀態(tài)恢復到無(wú)故障的狀態(tài)繼續運行。
容錯最基本的的方法是冗余技術(shù),所謂冗余就是超過(guò)系統實(shí)現正常功能的額外資源。冗余包括硬件冗余、軟件冗余、時(shí)間冗余和信息冗余。
1.1 硬件容錯技術(shù)
硬件冗余又包括靜態(tài)硬件冗余(也叫被動(dòng)硬件冗余)、動(dòng)態(tài)硬件冗余(也叫主動(dòng)硬件冗余)和混合冗余(靜態(tài)冗余和動(dòng)態(tài)冗余的結合)。靜態(tài)硬件冗余常見(jiàn)的形式有三模冗余(TMR),其基本原理是:系統輸入通過(guò)3個(gè)功能相同的模塊,產(chǎn)生的3個(gè)結果送到多數表決器進(jìn)行表決,即三中取二的原則,如果模塊中有一個(gè)出錯,而另外兩個(gè)模塊正常,則表決器的輸出正確,從而可以屏蔽一個(gè)故障,TMR的缺點(diǎn)是,如果3個(gè)模塊的輸出各不相同,則無(wú)法進(jìn)行多數表決;若有兩個(gè)模塊出現一致的故障,則表決的結果會(huì )出現錯誤。TMR結構如圖1所示。
圖1 TMR結構圖
三模冗余可推廣到N模冗余(NMR),其基本原理與TMR的原理相同,其中N≥3,且N為奇數,以便進(jìn)行多數表決。動(dòng)態(tài)冗余是指當檢測到工作的模塊出現錯誤時(shí),就切換到一個(gè)備用的模塊,當換上的備用模塊又發(fā)生故障時(shí),再切換到另一個(gè)備用模塊,依次類(lèi)推,直到備用的模塊用完。
1.2 時(shí)間容錯技術(shù)
時(shí)間容錯的基本思想是:重復執行指令或者一段程序來(lái)消除故障的影響,以達到容錯的效果,它是用消耗時(shí)間來(lái)?yè)Q取容錯的目的。根據執行的是一條指令還是一段程序,分成兩種方法:
一種是指令復執。當檢測出故障的時(shí)候,重復執行故障指令,若故障是瞬時(shí)的,則在指令復執期間可能不會(huì )出現,程序就可以繼續向前運行。指令復執必須保留上一指令結束的“現場(chǎng)”,包括累加器、PC及其他狀態(tài)寄存器的狀態(tài)。
另一種是程序卷回。它不是重復執行一條指令,而是重復執行一小段程序。在整段程序中可以設置多個(gè)恢復點(diǎn),程序有錯誤的情況下可以從一個(gè)個(gè)恢復點(diǎn)處開(kāi)始重復執行程序。首先檢驗一小段程序的計算結果,若結果出現錯誤則卷回再重復執行那個(gè)部分,若一次卷回不能解決,可以多次卷回,直到故障消除。
評論