開(kāi)發(fā)高可靠性嵌入式系統的7個(gè)技巧
盡管許多嵌入式工程師充滿(mǎn)了希望和夢(mèng)想,但高可靠性的代碼不是一蹴而就的。它是一個(gè)艱苦的過(guò)程,需要開(kāi)發(fā)人員維護和管理系統的每個(gè)比特和字節。當一個(gè)應用程序被確認為“成功”的那一刻,通常會(huì )有一種如釋重負的感覺(jué),但僅僅因為軟件在受控條件下的那一刻運行正常并不意味著(zhù)明天或一年后還會(huì )運行正常。
本文引用地址:http://dyxdggzs.com/article/201609/303674.htm從規范完善的開(kāi)發(fā)周期到嚴格執行和系統檢查,開(kāi)發(fā)高可靠性嵌入式系統的技術(shù)有許多種。本文介紹了7個(gè)易操作且可以長(cháng)久使用的技巧,它們對于確保系統更加可靠地運行并捕獲異常行為大有幫助。
技巧#1——用已知值填充ROM
軟件開(kāi)發(fā)人員往往都是非常樂(lè )觀(guān)的一群人,只要讓他們的代碼忠實(shí)地長(cháng)時(shí)間地運行就可以了,僅此而已。微控制器跳出應用程序空間并在非預想的代碼空間中執行這種情況似乎是相當少有的。然而,這種情況發(fā)生的機會(huì )并不比緩存溢出或錯誤指針失去引用少。它確實(shí)會(huì )發(fā)生!發(fā)生這種情況后的系統行為將是不確定的,因為默認情況下內存空間都是0xFF,或者由于內存區通常沒(méi)有寫(xiě)過(guò),其中的值可能只有上帝才知道。
不過(guò)有相當完備的linker或IDE技巧可以用來(lái)幫助識別這樣的事件并從中恢復系統。技巧就是使用FILL命令對未用ROM填充已知的位模式。要填充未使用的內存,有很多不同的可能組合可以使用,但如果是想建立更加可靠的系統,最明顯的選擇是在這些位置放置ISR fault handler。如果系統出了某些差錯,處理器開(kāi)始執行程序空間以外的代碼,就會(huì )觸發(fā)ISR,并在決定校正行動(dòng)之前提供儲存處理器、寄存器和系統狀態(tài)的機會(huì )。
關(guān)于如何使用FILL命令以及關(guān)于其用途的替代性策略等額外信息可以在“使用FILL命令提高代碼完整性”中找到(http://www.beningo.com/improving-code-integrity-using-fill/)。
技巧#2——檢查應用程序的CRC
對嵌入式工程師來(lái)說(shuō)一個(gè)很大的好處是,我們的IDE和工具鏈可以自動(dòng)產(chǎn)生應用程序或內存空間校驗和(Checksum),從而根據這個(gè)校驗和驗證應用程序是否完好。有趣的是,在許多這些案例中,只有在將程序代碼加載到設備時(shí),才會(huì )用到校驗和。
然而,如果CRC或校驗和保持在內存中,那么驗證應用程序在啟動(dòng)時(shí)(或甚至對長(cháng)時(shí)間運行的系統定期驗證)是否仍然完好是確保意外之事不會(huì )發(fā)生的極好途徑?,F在一個(gè)編程過(guò)的應用程序發(fā)生改變的概率是很小的,但考慮每年交付的數十億個(gè)微控制器以及可能惡劣的工作環(huán)境,應用程序崩潰的機會(huì )并不是零。更有可能的是,系統中的一個(gè)缺陷可能導致某一扇區發(fā)生閃存寫(xiě)入或閃存擦除,從而破壞應用程序的完整性。
技巧#3——在啟動(dòng)時(shí)執行RAM檢查
為了建立一個(gè)更加可靠和扎實(shí)的系統,確保系統硬件正常工作非常重要。畢竟硬件會(huì )發(fā)生故障。(幸運的是軟件永遠不會(huì )發(fā)生故障,軟件只會(huì )做代碼要它做的事,不管是正確的還是錯誤的)。在啟動(dòng)時(shí)驗證RAM的內部或外部沒(méi)有問(wèn)題,是確保硬件可以如預期般運作的一個(gè)好方法。
有許多不同的方法可用于執行RAM檢查,但常用的方法是寫(xiě)入一個(gè)已知的模式,然后等上一小段時(shí)間再回讀。結果應該是所讀就是所寫(xiě)。真相是,在大多數情況下RAM檢查是通過(guò)的,這也是我們想要的結果。但也有極小的可能性檢查不通過(guò),這時(shí)就為系統標示出硬件問(wèn)題提供了極好的機會(huì )。
這里有一個(gè)memtest C模塊,是Michael Barr在 2000年就寫(xiě)好了的,它可以節省工程師考慮RAM測試所需的時(shí)間。
技巧#4——使用堆棧監視器
對許多的嵌入式開(kāi)發(fā)者而言,堆棧似乎是一股相當神秘的力量。當奇怪的事情開(kāi)始發(fā)生,工程師終于被難倒了,他們開(kāi)始思考,也許堆棧中發(fā)生了什么事。結果是盲目地調整堆棧的大小和位置等等。但該錯誤往往是與堆棧無(wú)關(guān)的,但怎能如此確定?畢竟,有多少工程師真的實(shí)際執行過(guò)最壞情況下的堆棧大小分析?
堆棧大小是在編譯時(shí)就靜態(tài)分配好的,但堆棧是以動(dòng)態(tài)的方式使用的。隨著(zhù)代碼的執行,應用程序需要的變量、返回的地址和其它信息被不斷存儲在堆棧中。這種機制導致堆棧在其分配的內存中不斷增長(cháng)。然而,這種增長(cháng)有時(shí)會(huì )超出編譯時(shí)確定的容量極限,導致堆棧破壞相鄰內存區域的數據。
絕對確保堆棧正常工作的一種方法是實(shí)現堆棧監視器,將它作為系統“保健”代碼的一部分(有多少工程師會(huì )這樣做?)。堆棧監視器會(huì )在堆棧和“其它”內存區域之間創(chuàng )建一個(gè)緩沖區域,并填充已知的位模式。然后監視器會(huì )不斷的監視圖案是否有任何變化。如果該位模式發(fā)生了改變,那就意味著(zhù)堆棧增長(cháng)得太大了,即將要把系統推向黑暗地獄!此時(shí)監視器可以記錄事件的發(fā)生、系統狀態(tài)以及任何其它有用的數據,供日后用于問(wèn)題的診斷。
大多數實(shí)時(shí)操作系統(RTOS)或實(shí)現了內存保護單元 (MPU)的微控制器系統中都提供有堆棧監視器??膳碌氖?,這些功能默認都是關(guān)閉狀態(tài),或者經(jīng)常被開(kāi)發(fā)人員有意關(guān)閉。在網(wǎng)絡(luò )上快速搜尋一下可以發(fā)現,很多人建議關(guān)閉實(shí)時(shí)操作系統中的堆棧監視器以節省56字節的閃存空間。等等,這可是得不償失的做法!
技巧#5 - 使用MPU
在過(guò)去,是很難在一個(gè)小而廉價(jià)的微控制器中找到內存保護單元(MPU)的,但這種情況已經(jīng)開(kāi)始改變?,F在從高端到低端的微控制器都已經(jīng)有MPU,而這些MPU為嵌入式軟件開(kāi)發(fā)人員提供了一個(gè)可以大幅提高其固件(firmware)魯棒性(robustness)的機會(huì )。
MPU 已逐漸與操作系統耦合,以便建立內存空間,其中的處理都分開(kāi),或任務(wù)可執行其代碼,而不用擔心被stomped on。倘若真有事情發(fā)生,不受控制的處理會(huì )被取消,也會(huì )執行其他的保護措施。請留意帶有這種組件的微控制器,如果有,請多加利用它的這種特性。
技巧#6 - 建立一個(gè)強大的看門(mén)狗系統
你經(jīng)常會(huì )發(fā)現的一種總是最受喜愛(ài)的看門(mén)狗(watchdog)實(shí)現是,在看門(mén)狗被啟用之處(這是一個(gè)很好的開(kāi)始),但也是可以用周期性定時(shí)器將該看門(mén)狗清零之處;定時(shí)器的啟用是完全與程序中出現的任何情況隔離的。使用看門(mén)狗的目的是協(xié)助確保如果出現錯誤,看門(mén)狗不會(huì )被清零,即當工作暫停,系統會(huì )被迫去執行硬件重設定(hardware reset),以便恢復。使用與系統活動(dòng)獨立的定時(shí)器可以讓看門(mén)狗保持清零,即使系統已失效。
評論