嵌入式陣列處理器的發(fā)展現狀及前景
摘要:本文從陣列設計、制造技術(shù)與應用領(lǐng)域三個(gè)方面,討論了嵌入式陣列處理器的發(fā)展情況,最后從微電子技術(shù)發(fā)展的趨勢與并行計算的需要,說(shuō)明了陣列處理器具有換代作用的發(fā)展前景。
關(guān)鍵詞:陣列處理器;MPSoC;MPP;SIMD
前言
1971年的處理器芯片以及在其基礎上發(fā)展而來(lái)的PC機的問(wèn)世,使計算機的應用從科學(xué)殿堂走進(jìn)了“尋常百姓家”,同時(shí)開(kāi)辟了計算機嵌入式應用的新模式,促進(jìn)了工業(yè)產(chǎn)品的知識化/智能化。隨著(zhù)芯片集成度的提高與計算模式的演變,如圖1所示,1987年人們提出了系統芯片(SoC,System on Chip)的概念,要將計算機的系統設計也轉移到芯片設計上來(lái)。從提出一個(gè)新概念到這一概念的成果市場(chǎng)化,一般大約需要30年左右的時(shí)間。系統芯片概念提出之后,經(jīng)過(guò)20多年的努力,逐漸形成了兩種系統芯片。一種是以處理器為IP核的多處理器系統芯片(MP SoC,Multi Processor SoC),簡(jiǎn)稱(chēng)MP系統芯片;另一種是根據并行計算技術(shù)與深亞微米技術(shù)的發(fā)展需要而發(fā)展起來(lái)的大規模并行處理系統芯片(MPP SoC, Massively Parallel Processing SoC),簡(jiǎn)稱(chēng)MPP系統芯片。因為采用了陣列的實(shí)現方法,對處理器來(lái)說(shuō)又可以叫做陣列處理器(Array Processor)。下面將主要討論嵌入式陣列處理器的陣列設計、制造技術(shù)與應用領(lǐng)域的新發(fā)展。
圖1 芯片集成度,計算模式與芯片體系結構的發(fā)展
陣列設計的發(fā)展
處理器芯片,以及在其基礎上發(fā)展起來(lái)的MP系統芯片,設計和應用都發(fā)展得比較成熟。目前許多嵌入式計算機的系統設計,已經(jīng)轉移到嵌入式MP系統芯片的設計上來(lái);不僅如此,1985年開(kāi)始的FPGA技術(shù),在2000年就推出了帶嵌入式處理器ARM的FPGA芯片,現在已發(fā)展成了嵌入式MP系統芯片的一種硬件設計平臺。國內已研制出以8位、16位以及32位處理器為核心的,與應用領(lǐng)域緊密相關(guān)的嵌入式MP系統芯片。隨著(zhù)嵌入式應用的微型化與并行計算的要求越來(lái)越高,以及深亞微米技術(shù)的不斷發(fā)展所帶來(lái)的“紅墻”問(wèn)題,使嵌入式陣列處理器的設計成了新的研究熱點(diǎn)。
為了航空航天圖像處理電子設備的微型化,美國休斯(Hughes)公司在3um CMOS工藝的基礎上,采用圓片級的3D 二次集成電路技術(shù),按照SIMD PE陣列的體系結構,于1987年10月就研制成功了一種3D 陣列處理器。該陣列處理器由5個(gè)大圓片(Wafer)組成了32×32個(gè)16位定點(diǎn)處理元的PE陣列,工作頻率10 MHz,峰值速度為600 MOPS,功耗約1.5W,體積只有手掌大小,如圖2所示。除了32×32的PE陣列外,休斯公司還先后研制了每個(gè)大圓片上有128×128與256×256(=65536)個(gè)功能模塊的陣列處理器。
圖2 休斯公司的第一臺3-D MPP計算機
與其它嵌入式處理器不同,嵌入式陣列處理器設計的發(fā)展,從休斯公司的圖像處理的陣列處理器可以看出,是由成千上萬(wàn)的處理元PE的陣列組成的。其它的陣列處理器是存在一個(gè)并行編程的語(yǔ)言問(wèn)題的,早期的解決方法是把常用的程序設計語(yǔ)言擴充成并行程序設計語(yǔ)言,但沒(méi)有得到推廣;現在的解決方法是采用面向并行編程模式的映射語(yǔ)言。由于圖像處理的嵌入式陣列處理器,是一種支持數據并行計算的可編程的陣列處理器,采用的是指令流計算模式的SIMD PE陣列的體系結構,與超級計算的陣列處理器不同。這是一種自然的實(shí)現數據并行計算的陣列處理器的體系結構,因為按時(shí)間映射方法執行數據并行算法時(shí),SIMD PE陣列上所有PE每個(gè)周期執行的是同樣的一條指令的“數組操作”,數組大小理論上是沒(méi)有限制的;SIMD PE陣列的陣列處理器可以看作是數據并行算法的算法處理器(Algorithm Processor),而不必看作是一個(gè)多處理器,從而得到了圖像處理器的并行編程簡(jiǎn)單性、高效性與通用性。由于SIMD計算方式對數據并行計算的效果非常顯著(zhù),在有些處理器/多核處理器/眾核處理器的指令集合中,也增加了支持SIMD 計算的MMX指令。
圖3 大圓片的立體組裝技
現代的陣列處理器的PE陣列基本上是支持兩維算法的,因為現在計算機的傳感器輸入主要是空間上的兩維陣列,顯示器輸出也主要還是空間上的兩維陣列,相應的PE陣列自然是兩維的;而可視空間是三維的,計算科學(xué)家是通過(guò)立體視覺(jué)算法在兩維陣列的顯示器上形成三維的立體感的。其實(shí),隨應用領(lǐng)域的不同,完成空間并行計算的陣列處理器還可以是三維的。陣列大小是可以系列化的,陣列設計的發(fā)展主要是處理元PE的概念,以及處理元PE中的操作的概念,都應當是廣義的,還有一般處理器中所沒(méi)有的處理元PE之間的互連方法以及陣列處理器芯片之間的互連方法。
隨應用領(lǐng)域的不同,處理元PE的設計參數(字長(cháng)精度、存儲容量與運算速度,以及體積、重量、功耗與可靠性等)是可以像處理器一樣系列化的。不僅如此,為了實(shí)現陣列處理器芯片的換代作用,使陣列處理器芯片不僅能夠替代處理器芯片,還可以替代現在的可重構的空間映射的并行處理芯片(靜態(tài)可重構的FPGA芯片與動(dòng)態(tài)可重構的RC Device芯片),處理元PE的概念應當是廣義的。隨應用領(lǐng)域的要求不同,可以是現在已知的處理器(RISC/DSP),也可以是現在未知的,例如,RC Device陣列中的功能模塊,FPGA陣列中的邏輯門(mén)或神經(jīng)元,FPAA陣列中的模擬器件,FPTA陣列中的晶體管等。相應的處理元PE中的操作的概念也是廣義的,可以是現在已知的處理器操作(算術(shù)/邏輯等);也可以是現在未知的“操作”,例如,對模擬器件的“操作”,對晶體管的“操作”等。處理元PE之間的互連方法以及陣列處理器芯片之間的互連方法,現在都還沒(méi)有發(fā)展到成熟的地步,為陣列設計提供了廣闊的發(fā)展空間。
表1 Intel陣列處理器的性能
制造技術(shù)的發(fā)展
雖然圖像處理的嵌入式陣列處理器是在芯片特征尺寸不是很小的情況下就開(kāi)始研制的,但是,它從擴大芯片面積與3D集成方面,推動(dòng)了芯片制造技術(shù)的新發(fā)展。例如,美國休斯(Hughes)公司在特征尺寸為3um CMOS工藝的基礎上,采用很有特點(diǎn)的圓片規模集成WSI( Wafer Scale Integration) 電路技術(shù),把圓片上的芯片互連起來(lái),并采用了設計上的避錯技術(shù)(這也是現在解決“紅墻”問(wèn)題時(shí),芯片設計中要采用的技術(shù)),將一次集成電路的面積從芯片擴大到了圓片;而圓片之間又采用了3D的二次集成電路技術(shù),包括硅圓片的穿通(Feedthroughs)技術(shù),相鄰大圓片之間的微橋互連(Interconnects)技術(shù),以及多個(gè)大圓片的三維組裝技術(shù)(Assembly Technology),如圖3中所示,就研制成功了成千上萬(wàn)個(gè)處理元PE陣列的圖像處理的陣列處理器。
值得指出的是,3D二次集成電路技術(shù)也是高性能陣列處理器中所要用的技術(shù)。例如,Intel提出了一個(gè)名叫Tera-Scale的計劃,2007年初采用65nm工藝,總共集成了1億(100 Million)晶體管,一共采用了80個(gè)比現代處理器簡(jiǎn)單的處理元PE。PE陣列與SRAM存儲器陣列的互連也是采用3D 二次集成電路技術(shù)實(shí)現的,如圖4所示,Intel陣列處理器的性能,如表1中所示,每個(gè)芯片都達到了每秒1萬(wàn)億次的水平。
(a)Intel的MPP系統芯片
(b) 處理元PE之間的互連方法
圖4 Intel的Tera-Scale計劃的陣列處理器
因為采用芯片四邊引線(xiàn)的辦法,單個(gè)芯片上的I/O引腳數目不能隨芯片集成度的提高成比例增長(cháng),采用3D二次集成電路技術(shù)解決單個(gè)芯片上的I/O引腳數目與“紅墻”問(wèn)題,取得了成功,得到了發(fā)展。特別是TSV(Through-Silicon-Vias)方法的3D二次集成電路技術(shù)可以顯著(zhù)地縮短芯片之間的連線(xiàn)長(cháng)度,增大信號帶寬;使整機(或系統)與外部連接點(diǎn)大大減少,進(jìn)一步提高可靠性。2007年4月IBM公司發(fā)布將采用TSV技術(shù)研制三維芯片;Samsung公司也計劃用TSV技術(shù)制作三維內存芯片。
應用領(lǐng)域的發(fā)展
從應用環(huán)境來(lái)說(shuō),陣列處理器用在地基(陸基、?;涂栈?應用環(huán)境中,是不會(huì )有爭議的。自從1957年10月4日第一顆人造衛星上天以后,人類(lèi)從此進(jìn)入太空時(shí)代。嵌入式計算機也越來(lái)越多的用到了天基應用環(huán)境中。盡管天基應用的芯片數量目前遠少于地基應用的芯片數量,正如電子管計算機剛發(fā)明的時(shí)候,運算速度、存儲容量、體積功耗和可靠性等都是限制它廣泛應用的關(guān)鍵因素,因此有人就說(shuō)全世界有幾臺電子管計算機就夠了。但是,計算機符合人類(lèi)從工業(yè)社會(huì )向知識社會(huì )發(fā)展的方向,是人們夢(mèng)寐以求的建立知識社會(huì )的腦力勞動(dòng)工具。人們看到了電子管計算機剩下的問(wèn)題,就是尋找新的物理技術(shù)來(lái)實(shí)現二進(jìn)制位的功能,于是,有了晶體管和集成電路的發(fā)明,使計算機的體積更小,功能更強,速度更快,容量更大,價(jià)格更低與可靠性更高。計算機終于成了今天婦孺皆知的知識產(chǎn)業(yè)的基礎,芯片成了工業(yè)發(fā)展的面包。同樣,雖然現在的嵌入式計算機的體積、功耗、性能、可靠性、壽命與價(jià)格等都是限制它天基應用的關(guān)鍵因素,但天基應用是人類(lèi)從地球走向太空的一個(gè)發(fā)展方向,太空的經(jīng)濟時(shí)代已經(jīng)到來(lái)。人們將會(huì )通過(guò)促進(jìn)芯片技術(shù)的新發(fā)展,使更多的計算機嵌入到天基計算機網(wǎng)絡(luò )中去,天基應用將是嵌入式陣列處理器的一個(gè)重要的應用領(lǐng)域。
嵌入式陣列處理器芯片的發(fā)展,除了使工業(yè)產(chǎn)品越來(lái)越知識化/智能化,還將能使嵌入式計算機以芯片的形式,悄悄融入我們的生活環(huán)境中,使人與計算機的生理界限逐漸消失,從客觀(guān)世界進(jìn)入我們的主觀(guān)世界(身體)。
發(fā)展的前景
如何設計陣列處理器(包括嵌入式陣列處理器),首先是人才隊伍問(wèn)題。我國現有芯片設計單位500來(lái)家,但規模小,50人以下的公司超過(guò)了半數。整合成了當前國內IC 設計業(yè)的熱門(mén)話(huà)題。例如,有人說(shuō)“由于市場(chǎng)競爭激烈,許多資金不足的初創(chuàng )公司不會(huì )堅持太久,加上國外風(fēng)險投資公司逐漸淡出,預計今后將有更多的公司,走上兼并重組之路”。而通過(guò)公司的兼并重組是不能壯大芯片設計隊伍,解決資金不足的問(wèn)題的。其實(shí),就像處理器的應用那樣,通過(guò)PC計算機使計算機成了各個(gè)領(lǐng)域的腦力勞動(dòng)工具,通過(guò)嵌入式計算機使工業(yè)產(chǎn)品知識化/智能化,使計算機的應用從科學(xué)殿堂走進(jìn)“尋常百姓家”,成了一種真正的草根運動(dòng)。例如,處理器嵌入到相機中出現了“傻瓜”相機;如果你把手機換成了iPhone,就會(huì )發(fā)現你與手機的交互發(fā)生了變化,可觸與直觀(guān)的屏幕取代了鍵盤(pán),進(jìn)一步降低了人與計算機的生理界限。微軟公司估計,人與計算機的生理界限將在10年之后徹底消失。陣列處理器的設計也是一種計算機的應用,就像PC機與嵌入式計算機普及與簡(jiǎn)化了計算機的應用一樣,通過(guò)先進(jìn)的陣列處理器設計平臺,使陣列處理器的設計普及到各種應用領(lǐng)域的系統設計者中去,成為一種草根運動(dòng),可能會(huì )更快地壯大芯片設計隊伍,解決資金不足的問(wèn)題。
從計算機的制造上來(lái)說(shuō),人們估計到2010年后,基于光刻技術(shù)采用SiGe的CMOS工藝的制造能力達到它的30nm極限時(shí),將會(huì )使線(xiàn)的延遲比門(mén)的延遲越來(lái)越重要,特征尺寸已小得使芯片缺陷不可避免,以及漏電流與功耗變得非常重要。陣列處理器是解決這些“紅墻”問(wèn)題所需要的。從計算機的應用上來(lái)說(shuō),陣列處理器是通過(guò)并行計算提高計算性能的有效辦法,具有處理器那樣的通用性。所以,陣列處理器(包括嵌入式陣列處理器)具有換代作用的發(fā)展前景。
評論