針對復雜嵌入式應用的創(chuàng )新處理器實(shí)現方法
——
傳統的應對方法是不斷研發(fā)更寬數據流、更快頻率的處理器,數據寬已經(jīng)由最初的4位、8位、發(fā)展到現在的16位、32位,頻率也由最初的MHz級到發(fā)展到現在的GHz級,相應的存儲器容量、速度也在不斷增加。但是繼續沿著(zhù)高帶寬、高主頻的摩爾定律方向發(fā)展,工藝上的受限已經(jīng)初顯端倪,更加難以應對低功耗、小體積的需求。眾多廠(chǎng)商也意識到,對于新的應用而言,速度已經(jīng)不再是唯一因素,提升性能才是更好的選擇。
同一化多核處理器結構
單芯片的多核解決方案是個(gè)好的嘗試,也是現在的嵌入式應用的熱點(diǎn)之一。InterllaSys公司SEAforth系統芯片是從自已的可擴展嵌入式陣列Scalable Embedded Array (SEA)平臺發(fā)展而來(lái)的,與將通用處理器和若干DSP核嵌入單芯片的方法不同,該平臺使用了相同的處理器核,每個(gè)核既具有通用處理器的功能,同時(shí)內部集成高速乘法器,經(jīng)過(guò)妥善設計,就可以把復雜的計算任務(wù)分配給各個(gè)處理器核共同進(jìn)行。
工作時(shí),可以簡(jiǎn)單地指定各個(gè)處理器核完成需要執行的不同任務(wù)。比如,在三重播放應用中,可以讓1個(gè)處理器核去管理外接存儲器,讓8個(gè)處理器核負責FFT變換,完成多媒體算法,再用幾個(gè)處理器核帶動(dòng)應用系統中的各種I/O子系統(見(jiàn)圖1)。這樣,每個(gè)處理器都會(huì )專(zhuān)心運行自己的任務(wù),避免了執行不同任務(wù)時(shí)任務(wù)切換之間的開(kāi)銷(xiāo),單個(gè)處理器在執行流媒體解碼過(guò)程中,也不會(huì )出現由于處理器等待別的外設而造成的圖像抖動(dòng)不暢等現象,同時(shí),我們可以根據具體的應用選擇具有不同數量?jì)群说奶幚砥?,極大地增強了設計和選擇的靈活性。目前在這一體系下,已經(jīng)有40核的處理器解決方案。
本地化RAM/ROM存儲器和時(shí)鐘發(fā)生器
當設計中使用了多個(gè)處理器時(shí),存儲器存取的問(wèn)題就出來(lái)了。大多數多核芯片設計把幾個(gè)處理器核和一個(gè)共用存儲器放在一起。這樣做簡(jiǎn)化了設計,因為每一個(gè)核只是處理器本身,問(wèn)題轉到多個(gè)處理器核如何共同使用一個(gè)存儲器,以及存儲器存取的仲裁,這是一個(gè)難題。通常用到某種仲裁網(wǎng)絡(luò )或者交叉點(diǎn)切換開(kāi)關(guān),在只有3個(gè)到4個(gè)處理器核時(shí),這個(gè)方法是可行的。但是,在芯片上需要幾十個(gè)處理器核時(shí),共用存儲器的問(wèn)題變得很復雜,令人望而卻步。此外,由于越來(lái)越多處理器核需要對存儲器進(jìn)行存取,共用存儲器的效率變得越來(lái)越低,很快就成為致命的瓶頸,把多核結構在處理方面的優(yōu)點(diǎn)都淹沒(méi)了。
SEAforth多核處理器使用了本地化存儲器設計,即為每個(gè)處理器核設計了自己的RAM/ROM存儲器。這有兩個(gè)好處,一方面避免了存儲器仲裁,也不需要交叉切換開(kāi)關(guān);另一方面可以分配給每個(gè)處理器核所需要的存儲容量。分析典型算法的源代碼,需要的存儲器容量有兩種,一種是1000字節或者少一些,一種是容量很大,幾兆字節,甚至幾百兆字節。大多數應用屬于前者,后者則在少數應用中需要,實(shí)現上也不切實(shí)際。所以SEAforth多核處理器為每一個(gè)處理器核都用小一些的本地存儲器,1000字節的數量級,用于存放程序源代碼和數據,ROM中固化每個(gè)處理器核的BIOS,再用一個(gè)大得多的外接存儲器,作為緩沖存儲器滿(mǎn)足多媒體的需要。
與采用公共外部時(shí)鐘的方式不同,SEAforth多核處理器為每個(gè)核內建一個(gè)時(shí)鐘--一個(gè)簡(jiǎn)單的環(huán)形振蕩器。它的速度和硅半導體的速度一樣快,只有在該處理器核工作時(shí),它的時(shí)鐘才工作。這種設計方式為下面介紹的核間通訊提供了可能,同時(shí),任一時(shí)刻由于只有部分處理器核在工作也大大降低了功耗。SEAforth多核處理器有很低的功耗水平,每個(gè)處理器以1GHz的頻率運行,而40核的整體功耗為250mW。
高效的處理器核間通訊
SEAforth多核處理器允許計算量很大的算法由幾個(gè)核協(xié)作完成,這時(shí),不同核問(wèn)需要大量的交換數據,通訊方式的優(yōu)劣影響整個(gè)系統的性能。
完成一項復雜的任務(wù)時(shí),傳統的做法是由操作系統自行指定參與的核,離的很遠的核間通訊需要處理器內有大量的通訊電路,往往設計復雜,效率偏低。在SEAforth多核處理器應用中,由工程師自己指定完成特定任務(wù)的處理器核,這需要工程師了解哪些任務(wù)需要交換更多的數據,然后指定相鄰的核完成這項任務(wù)。對于要求大量訪(fǎng)問(wèn)核外存儲器的任務(wù),同樣可以指定距離最近的核去完成。
SEAforth多核處理器相鄰的核間通訊通過(guò)共用寄存器傳輸,如圖2所示。

通過(guò)共用寄存器這種方式避免了沖突電路和優(yōu)先權網(wǎng)絡(luò )的問(wèn)題,具體傳輸過(guò)程中,傳統的處理方法需要利用讀取、檢測、寫(xiě)入等狀態(tài)位信息建立握手協(xié)議,耗費的時(shí)間多于實(shí)際傳送數據所用的時(shí)間。該處理器由于內建一個(gè)電路,可以在一個(gè)指令周期內實(shí)現啟動(dòng)/停止中的處理器核操作,所以實(shí)現了無(wú)需握手協(xié)議的傳輸。
假設核A與核B之間傳輸數據,處理器核A是送出數據的核,想把數據送到共用寄存器去,如果在寄存器中的數據還沒(méi)讀取,處理器核A就停下來(lái),一直到處理器核B讀取了寄存器中的數據。在同一時(shí)刻,處理器核A回來(lái)執行原來(lái)要執行的那條指令,即"送出數據"。于是,從源代碼的角度看,處理器核A總是認為寄存器是空著(zhù)的,在等待數據,沒(méi)有必要讀取和檢測狀態(tài)位。處理器核B做的事與之相似。
處理器核B的源代碼總是認為寄存器中一直存放著(zhù)沒(méi)有讀出的數據。當它殲始執行指令"讀取數據",從寄存器中取出數據時(shí),如果寄存器中沒(méi)有需要讀取的數據,它也停下來(lái)。當新的數據在寄存器中出現時(shí),處理器核B便執行"讀取數據"指令,這條指令把數據從寄存器中取出來(lái)。同樣,沒(méi)有必要讀取、檢測狀態(tài)位,沒(méi)有必要將狀態(tài)位置位。
在SEAforth多核處理器中,處理器核不僅可以讀取和執行本地ROM和RAM中的指令,它還能夠讀取和執行I/O口和寄存器送來(lái)的指令(見(jiàn)圖3)。這樣,利用上面的傳輸方式,指令便可以源源不斷地送到共用寄存器,并且直接執行,不必把源代碼傳送給本地存儲器。大大加快了執行效率。

針對性的精簡(jiǎn)指令集
除了硬件設計上的創(chuàng )新,SEAforth多核處理器使用了為自己量身定制的Forth語(yǔ)言,它不使用大量的寄存器,只用很少的硬件實(shí)現。這是因為在編制Forth程序時(shí),是定義新的字,然后用這些字來(lái)定義更高級的字,這些新定義的字就是核心字。然后把這些核心字裝在處理器的專(zhuān)用電路中。最后的結果足處理器核非常小,速度很高。
用核心字實(shí)現的指令只有32條。這些指令只用5位就能實(shí)現,有一些指令只能用于某些場(chǎng)合,這樣就有可能把幾條指令都放在一個(gè)不長(cháng)的指令字中,SEAforth處理器核使用18位的數據寬,在一個(gè)指令字中就可以放4條指令。像這樣安排的指令可以自動(dòng)地達到緩存的效果,不需要設置L1和L2緩存。每取一個(gè)指令字時(shí),一下就把4條指令送到處理器核中。例如,循環(huán)了程序的微指令可以全部放在一個(gè)18位指令字中。這種結構的指令字如果和自動(dòng)狀態(tài)信號一起,放到I/O寄存器或者共用寄存器中,取一次指令字,就可以傳送大數據塊。
通過(guò)T18開(kāi)發(fā)工具可以實(shí)現上述指令的編譯,因為SEAforth處理器每個(gè)核都通過(guò)自己的I/O和外部連接,并且都有自己的BIOS,所以,應用中只需為每個(gè)核編寫(xiě)對應的源代碼,不再需要中央操作系統去為每個(gè)核分配任務(wù)。
豐富的接口資源和外部器件支持
除了上述這些創(chuàng )新的設計,SEAforth多核處理器內建豐富的接口資源進(jìn)一步減小了系統體積、增強了應用范圍:
評論