多核環(huán)境中的高效率調試方法
——
毫無(wú)疑問(wèn),多核多線(xiàn)程是未來(lái)處理器的發(fā)展方向?;厥滋幚砥鞯陌l(fā)展歷程,并行技術(shù)從指令級的超標量發(fā)展到線(xiàn)程級的超線(xiàn)程或者并發(fā)多線(xiàn)程,再到今天處理器級的多內核,總的趨勢都沒(méi)有改變。英特爾、Sun和IBM等大公司目前已經(jīng)投身到多核或者多線(xiàn)程技術(shù)的浪潮之中。當今的網(wǎng)絡(luò )應用日趨復雜,對性能的要求不斷提高,無(wú)論是需求推動(dòng)技術(shù),還是技術(shù)激發(fā)了新的需求,并行技術(shù)都將是未來(lái)信息基礎設施建設的必然選擇。
對于嵌入式裝置而言,多核技術(shù)可以提供更高的處理器性能、更有效的電源利用率,并且占用更少的物理空間,因而具有許多單核處理器無(wú)法具備的優(yōu)勢。與多核解決方案如影隨形的,就是多處理器技術(shù),也就是在同一塊電路板或同一個(gè)集成系統中包含多個(gè)處理器。
要想充分發(fā)揮多核以及多處理器解決方案的潛能,僅僅依靠強有力的芯片是不夠的,還需要采用新的編程方法。伴隨著(zhù)新的編程方法,同樣也需要新的調試方法和工具,才能確保軟件和硬件開(kāi)發(fā)人員在完整的多核系統環(huán)境中展開(kāi)調試工作,同時(shí)對“編譯—編輯—調試”的流程進(jìn)行優(yōu)化。
在傳統上,JTAG調試技術(shù)主要是用于硬件Bring-Up,如今也常常被用于配合基于代理的調試(agent-based debugging)。然而,在多核和多處理的環(huán)境中,片上調試(on-chip debugging)正在扮演著(zhù)越來(lái)越重要的角色,因為這種技術(shù)更便于隔離運行在單個(gè)或者多個(gè)內核中不同軟件之間復雜的交互活動(dòng),從而幫助開(kāi)發(fā)人員對操作系統或者中間件實(shí)施更加有效的調試。
認識多核基本架構
多核處理器在同一個(gè)芯片中植入了多個(gè)處理器引擎,這就可以提供更高的CPU性能、功能特性和分區能力。一般說(shuō)來(lái),多核有兩種實(shí)現形式。
第一,SMP( Symmetric multiprocessing,對稱(chēng)多處理)。在這種情況下,開(kāi)發(fā)人員面對的是單一的抽象化硬件平臺,由SMP操作系統來(lái)決定具體由哪一個(gè)內核來(lái)運行哪個(gè)任務(wù),其中每個(gè)內核都是相同的,而且在同一個(gè)操作系統的管理控制之下,共享同一個(gè)內存。
第二,AMP (Asymmetric multiprocessing,非對稱(chēng)多處理)。在這種情況下,各個(gè)處理器內核都運行著(zhù)各自獨立的操作系統。這種獨立性意味著(zhù),其中各個(gè)處理器內核既可以是同構的,并且運行同樣的操作系統,也可以是異構的并運行各自不同的操作系統。
多核環(huán)境顯著(zhù)增加了系統復雜度,因而在對操作系統和與多核相關(guān)的硬件進(jìn)行調試的時(shí)候,就必須采用一整套更有效的工具。另外,盡管大家都認為多核就是指在同一個(gè)芯片中放入多個(gè)內核,但是在實(shí)際開(kāi)發(fā)工作中所遇到的多處理問(wèn)題,實(shí)際上不僅僅局限于在單一芯片中的多個(gè)內核。事實(shí)上,不論這些處理器內核是在同一個(gè)芯片之中,或者分布在同一個(gè)電路板中的多個(gè)芯片之中,甚至同一個(gè)系統中的多個(gè)電路板之中,開(kāi)發(fā)人員都必須解決好多處理環(huán)境中的調試問(wèn)題。相對于最近出現的單一芯片多核架構,有多個(gè)處理器芯片和多個(gè)處理器電路板組成的復雜系統已經(jīng)存在很多年了。因此,多處理架構的調試問(wèn)題其實(shí)早已存在,只是單一芯片內多核架構的普及將多處理系統調試問(wèn)題更加尖銳地擺在了開(kāi)發(fā)人員面前。
從這個(gè)意義上,多年前就開(kāi)始從事多處理環(huán)境軟件開(kāi)發(fā)的廠(chǎng)商就積累了更豐富的經(jīng)驗,在應對多核軟件開(kāi)發(fā)方面站在了更為有利的地位。例如Wind River公司經(jīng)典的實(shí)時(shí)操作系統VxWorks在多年前最初的設計思路就是基于多處理架構的,因此不論從運行環(huán)境還是開(kāi)發(fā)調試工具任何一方面看,對于多核環(huán)境的適應能力都比其他工具要強得多。
認識多核調試難點(diǎn)
多核與多處理技術(shù)的融合為系統調試帶來(lái)了許多新的挑戰,因為系統復雜度不斷增加,要通過(guò)優(yōu)化硬件和軟件來(lái)充分發(fā)揮其中的性能潛力,難度就更大了。其中最主要的難點(diǎn)有以下幾個(gè)方面。
* 有效地管理內存和外設等共享資源;
* 在多內核、多電路板和多操作系統的環(huán)境中對操作系統和應用代碼進(jìn)行調試;
* 優(yōu)化JTAG接口并充分利用JTAG帶寬;
* 調試單一芯片中的同構和異構多核,進(jìn)而實(shí)現整個(gè)系統的協(xié)同調試;
* 有效地利用JTAG與基于代理的調試方法,確保不同調試工具之間的順暢協(xié)同;
* 確保多核環(huán)境中應用調試的同步機制。
對于多核JTAG調試來(lái)說(shuō),有三種主要的技術(shù)選擇:第一,以單一JTAG接口支持所有內核的調試器;第二,在單一JTAG調試接口中采用獨立調試器的JTAG多路(Muxing)技術(shù);第三,JTAG鏈接器或者可編址掃描端口(Addressable Scan Port)。
在多核調試中,上述三個(gè)技術(shù)途徑都是在處理同一個(gè)核心問(wèn)題——由SoC廠(chǎng)商所提供的JTAG接口所造成的局限性。為了節省成本,許多SoC廠(chǎng)商都只為芯片提供單一的JTAG接口,而不理會(huì )其中包含了多少個(gè)內核。對于開(kāi)發(fā)者來(lái)說(shuō),最大的挑戰就是經(jīng)濟有效地使用這些接口來(lái)同步多核以及多處理的調試工作。其中,單一調試器方式采用IEEE 1149.1標準daisy-chain方法。
認識多核調試方法
對于多核架構來(lái)說(shuō),單一調試器的主流選項仍然是JTAG多路技術(shù)。這種技術(shù)對IEEE JTAG技術(shù)規范進(jìn)行了拓展,以便為通過(guò)共享JTAG接口連接起來(lái)的每個(gè)內核提供獨立的調試器。在多路技術(shù)的支持下,通過(guò)對希望調試的內核進(jìn)行注冊登記(Registering),開(kāi)發(fā)人員可經(jīng)由單一JTAG接口訪(fǎng)問(wèn)多個(gè)離散狀態(tài)的內核。這種解決方案的最大優(yōu)勢在于它的連接和調試性能。因為多路技術(shù)單獨連接到每個(gè)內核,因而避免了daisy-chaining方法中所遇到的比特位移(bit shifting)方面的麻煩,因而在單芯片中的多核系統中具有更高的性能。這種方式的另一個(gè)好處是不需要對開(kāi)發(fā)工具進(jìn)行修改,從而可以順暢地應用在多個(gè)開(kāi)發(fā)項目之中。
多路技術(shù)(Muxing)方法所存在的主要問(wèn)題是在多內核調試過(guò)程中無(wú)法同時(shí)啟動(dòng)和停止內核來(lái)同步應用。如果要停止全部?jì)群?,開(kāi)發(fā)人員只能順序地逐個(gè)進(jìn)行,這就導致了調用延遲問(wèn)題。在調試過(guò)程中的延遲問(wèn)題,會(huì )導致很難在內核之間的操作系統、中間件和應用中找到發(fā)生問(wèn)題的確切位置,特別是當運行在不同內核之中的應用存在相互依賴(lài)性的時(shí)候,這個(gè)問(wèn)題就更為突出。例如,某個(gè)產(chǎn)品包含DSP功能和ARM 9內核,其中DSP用來(lái)處理視頻流,ARM 9內核提供文件系統,那么內核的啟動(dòng)與停止同步將會(huì )十分關(guān)鍵。如果調試過(guò)程中在A(yíng)RM內核的啟動(dòng)和DSP的停止之間出現過(guò)多的延遲,DSP視頻流數據很快就會(huì )溢滿(mǎn)ARM文件緩沖區,而視頻流也將會(huì )中止。如果出現這種情況,就很難判斷系統中的問(wèn)題出在哪里。而且,多路進(jìn)程也給開(kāi)發(fā)人員在故障排除時(shí)帶來(lái)了許多新的問(wèn)題,將會(huì )大幅度增加調試時(shí)間。
另外,如果在有多個(gè)廠(chǎng)商產(chǎn)品組成的異構多核環(huán)境中進(jìn)行調試工作,例如處理器來(lái)自一個(gè)廠(chǎng)商,而DSP器件來(lái)自另一個(gè)廠(chǎng)商,還會(huì )有更復雜的問(wèn)題需要處理。因為這種情況下的多路(Muxing)機制更為復雜,如果各部分之間的兼容性沒(méi)有得到保證,也就很難保證系統正常運行。此時(shí),僅僅依靠多路技術(shù)是無(wú)法解決問(wèn)題的,開(kāi)發(fā)人員就需要采用可編址掃描端口(addressable scan port),這也可能是最后僅有的方法了。這種架構需要用到非常特殊的組件,這些組件可以讓開(kāi)發(fā)人員把JTAG掃描鏈分割成多個(gè)功能組,并通過(guò)唯一的地址來(lái)訪(fǎng)問(wèn)每個(gè)功能組。這是一種多支路(multi-drop)架構,經(jīng)常被用于底板(Backplane)環(huán)境之中。在這里,有一個(gè)分別可編址的掃描鏈在底板內實(shí)現路由(Routed),從而使機箱中的每個(gè)底板都擁有自己專(zhuān)屬的掃描鏈。這種架構的運行速度受限于可編址掃描端口的速度,最典型的情況是25MHz。
擁有先進(jìn)多核調試工具
Wind River擁有的JTAG加速器和服務(wù)器技術(shù)可以顯著(zhù)降低JTAG序列包之間的空閑時(shí)間,完全充分地利用了可用的JTAG帶寬。與JTAG有關(guān)的另一個(gè)問(wèn)題涉及到調試能力,例如用停止請求信號來(lái)立即停止某個(gè)內核,或者用停止指示信號來(lái)停止某個(gè)內核并同步其他的內核的停止。與其他所有的局限性一樣,這類(lèi)問(wèn)題也依賴(lài)于廠(chǎng)商的實(shí)現方法。
Wind River on-chip debugging(片上調試)解決方案可以同時(shí)啟動(dòng)和停止多個(gè)內核。實(shí)際上,Wind River提供的JTAG解決方案,也就是Workbench On-Chip Debugging,是以集中化的方式來(lái)實(shí)現多核和多處理的調試功能。這個(gè)解決方案可以在單一掃描鏈(Scan Chain)中同時(shí)調試多達8個(gè)內核。而且,不管這些內核處于同一個(gè)芯片之中、分布在線(xiàn)路板中的多個(gè)芯片或者分布在復雜系統中的多個(gè)線(xiàn)路板之中,Workbench On-Chip Debugging都能夠應付自如。
在Wind River的多核解決方案中,開(kāi)發(fā)人員可以同時(shí)停止或者啟動(dòng)任何內核,在一個(gè)或者多個(gè)內核上設置斷點(diǎn),其中還可以包括條件斷點(diǎn)。此外,Workbench Eclipse框架和基于代理的調試方式使開(kāi)發(fā)人員在單一控制臺上即可管理多內核/多處理應用的開(kāi)發(fā)。開(kāi)發(fā)人員可以在JTAG調試和基于代理調試二者之間靈活地選擇,例如在硬件Bring-Up、內核、中間件和其他應用功能調試的時(shí)候采用JTAG連接,然后在自己認為適當的時(shí)機平滑地轉移到基于代理的調試,而這些調試工作都是圍繞著(zhù)同一個(gè)應用的。這些能力都會(huì )增加不同開(kāi)發(fā)人員之間的協(xié)同能力,同時(shí)改善異常問(wèn)題的判定效率。
結論
在多核開(kāi)發(fā)中,JTAG調試可以承擔非常有價(jià)值的角色,有效地改善“編輯-編譯-調試”周期時(shí)間。然而,實(shí)現這一點(diǎn)的前提是把JTAG調試與基于標準的集成化開(kāi)發(fā)環(huán)境(例如Eclipse)緊密地集成起來(lái)。最理想的技術(shù)方案是,在Daisy Chain中采用遵從IEEE 1149.1 JTAG標準的單一的JTAG調試器,而JTAG的主要作用是改善系統的吞吐能力和性能。
評論