嵌入式開(kāi)發(fā)技巧:利用編程技術(shù)發(fā)揮多內核架構優(yōu)勢
在整個(gè)嵌入式領(lǐng)域,“更多內核”已經(jīng)成為設計趨勢,一些硬件架構可以提供數十個(gè)內核,有些架構中的內核甚至多達上千個(gè)。然而,多內核設計在軟件方面仍存在諸多挑戰,在不同架構間進(jìn)行應用程序的移植并不容易。
本文引用地址:http://dyxdggzs.com/article/201609/303646.htm在低端嵌入式領(lǐng)域,單內核解決方案仍然存在。通過(guò)采用速度更快或帶寬更寬的處理器仍有可能提升系統的功能和性能曲線(xiàn)。在高端領(lǐng)域,多內核是必然的發(fā)展方向。這正是雙精度浮點(diǎn)算法經(jīng)常出現并在超級計算機中長(cháng)盛不衰的原因。事實(shí)上,臺式機和機架安裝系統(比如Nvidia的產(chǎn)品)正在將這種處理能力普及化。
在討論軟件和多內核架構時(shí)經(jīng)常提及的另一個(gè)問(wèn)題是虛擬化。并不是所有多內核平臺都支持虛擬化,但虛擬化確實(shí)能帶來(lái)更好的機會(huì )。雖然虛擬化使得硬件設計面臨更多的挑戰,但它通常能簡(jiǎn)化軟件和應用管理。
SMP服務(wù)器
Xeon Nehalem-EX是Intel公司提供的頂級8內核對稱(chēng)多處理(SMP)平臺。像8芯片、64內核系統這樣的多芯片解決方案,通常采用高速 QuickPath點(diǎn)到點(diǎn)互連技術(shù)將處理器和外設控制器鏈接在一起(圖1)。使用過(guò)帶HyperTransport鏈路的AMD Opteron處理器的工程師,對這種架構非常熟悉。在這兩種情況下,最簡(jiǎn)單的配置是單個(gè)處理器通過(guò)單條高速鏈路鏈接到單個(gè)外設控制器。

除了提供分布式內存子系統外,Intel和AMD還實(shí)現了連貫緩沖非統一內存尋址(ccNUMA)技術(shù)。每個(gè)處理器芯片都有自己的內存控制器以及一級、二級和三級緩存。任何芯片都可以使用高速鏈路訪(fǎng)問(wèn)其它任何芯片中的內存。當然,離請求者越遠的數據訪(fǎng)問(wèn)時(shí)間越長(cháng)。這些高速鏈路也被用于消費設備,但只有到 I/O中心的單條鏈路是必需的。換句話(huà)說(shuō),在共享內存訪(fǎng)問(wèn)時(shí)服務(wù)器將在處理器芯片間產(chǎn)生顯著(zhù)的流量。芯片至芯片流量和緩存管理是高效操作的關(guān)鍵。
HT Assist是AMD最新推出的Istanbul Opteron處理器的一個(gè)重要功能,它通過(guò)優(yōu)化內存請求和響應過(guò)程來(lái)盡量減少相關(guān)事務(wù)處理的數量,進(jìn)而釋放出大量帶寬用于處理其它業(yè)務(wù)(圖2)。HT Assist實(shí)際上會(huì )跟蹤數據在內核和緩存間的移動(dòng),允許請求得到具有所需數據的最近內核的服務(wù)。

最壞的情況是擁有片外存儲器空間的芯片必須從片外存儲器訪(fǎng)問(wèn)數據;最好的情況是發(fā)現數據正好位于運行著(zhù)需要這個(gè)數據的線(xiàn)程的芯片緩存中;中間情況是內核從相鄰芯片的緩存中獲取數據。使用虛擬化和緩存技術(shù)后系統將變得更加復雜,并導致數據延時(shí)更加難以確定。這在確定性嵌入式應用中可能是個(gè)問(wèn)題,但在大多數服務(wù)器應用中問(wèn)題并不十分明顯,因為這種情況下的速度比精細的確定性更加重要。
編程人員現在都在使用這些平臺,因為它們能大大簡(jiǎn)化編程任務(wù)。同樣,應用程序可以使用越來(lái)越多的內核,前提是應用程序可高效地利用充足的線(xiàn)程。高效使用多內核系統并不像表面看起來(lái)那么容易。緩存大小和應用程序工作數據集中的參考位置會(huì )影響特定算法的運行效果。
AMP應用處理器
對稱(chēng)處理(SMP)架構對許多嵌入式應用來(lái)說(shuō)非常有用,但非對稱(chēng)多處理(AMP)也有它的用武之地。AMP配置在很多地方都可以看到,從TI的OMAP(開(kāi)放多媒體應用平臺)到飛思卡爾的P4080 QorIQ都有AMP的身影(圖3)。

TI的OMAP 44xx平臺整合了ARM Cortex-A9、PowerVR SGX 540 GPU、C64x DSP和圖像信號處理器。每個(gè)內核有專(zhuān)門(mén)的功能,處理器之間的通信不是對稱(chēng)的。OMAP只工作在A(yíng)MP模式,而P4080的內核是SMP系統,但也能夠將內核劃分為AMP模式。8內核芯片可以像8個(gè)獨立內核那樣運行,在許多配置中也可以聯(lián)合起來(lái)使用(如一對雙內核SMP子系統,或四個(gè)單內核子系統)。
OMAP和P4080在高層架構的主要區別是OMAP功能是固定的,內核針對各自的事務(wù)做了優(yōu)化。這將使編程容易得多,因為可以根據匹配功能將應用程序劃分到特定內核。
每個(gè)子系統的性能水平受架構的限制,但P4080可以調整劃分方案,雖然劃分通常是在系統啟動(dòng)時(shí)完成的。系統設計師可以調整P4080中內核的分配,前提是有足夠多的內核。市場(chǎng)上也有內核數量較少的QorIQ平臺,因此可以選用更經(jīng)濟的芯片。
IBM的Cell處理器填補了中間的空白。它采用了1個(gè)64位的Power內核和8個(gè)增效處理單元(SPE)。所有SPE都是相同的(每個(gè)有256KB的內存),它們工作在隔離狀態(tài),這與上述討論的共享內存SMP系統有所不同。SPE內沒(méi)有緩存,也不支持虛擬內存。
對軟硬件設計來(lái)說(shuō),這種方式既有優(yōu)點(diǎn)又有缺點(diǎn)。優(yōu)點(diǎn)為是簡(jiǎn)化了硬件實(shí)現,但從多個(gè)角度看都使軟件復雜化了。例如,內存管理受應用程序控制,就像內核間的通信一樣。數據在能夠操作之前必須要移進(jìn)SPE的本地內存。完全開(kāi)發(fā)Cell這樣的架構很花時(shí)間,因為它們有別于更傳統的SMP或AMP平臺。多年來(lái)在像索尼的PlayStation 3這樣的基于Cell的平臺上所作的軟件改進(jìn)突顯了編程技術(shù)和經(jīng)驗的變化。
GPU等專(zhuān)用處理器
改變編程技術(shù)是使用圖形處理單元(GPU)是否成功的關(guān)健。來(lái)自ATI和Nvidia等公司的GPU在單個(gè)芯片內有上百個(gè)內核,這些GPU可以被整合進(jìn)多芯片解決方案,向開(kāi)發(fā)人員提供上千個(gè)內核。例如,集成進(jìn)1U機箱的4個(gè)Nvidia Tesla T10就可以提供960個(gè)內核(圖4)。

對Tesla或其它任何兼容的Nvidia GPU芯片進(jìn)行編程都極具挑戰性,但類(lèi)似Nvidia的CUDA這樣的架構或基于CUDA的運行時(shí)利用可以使工作變得更加輕松。部分挑戰來(lái)自于 Nvidia GPU的單指令、多線(xiàn)程(SIMT)架構。與許多高性能系統一樣,這種GPU喜歡處理數組數據。對許多應用來(lái)說(shuō)這是不錯的選擇,但并非都是這樣,這正是 GPU經(jīng)常要與多內核CPU匹配的原因之一。
評論