MPF 2008: 混合架構主宰消費類(lèi)領(lǐng)域
同構架構已經(jīng)兌現了其承諾:有效的低功耗、靈活性以及準備好應對任何新的工作負荷,加上在互聯(lián)網(wǎng)上升級消費電子系統的好處。然而,在日本舉行的2008年微處理器論壇(MPF)上,為期兩天的日程上填滿(mǎn)了24個(gè)演講,其中,兩個(gè)是主題演講,除了軟件工具之外,只有一個(gè)演講可能聲稱(chēng)描述同構架構設計。
本文引用地址:http://dyxdggzs.com/article/89405.htm各個(gè)公司提交的異構(heterogeneous)設計存在差異,但是,它們有一點(diǎn)是共同點(diǎn):它們并不是由節省功率而展示的高度并行的同構架構。更為精確地說(shuō),把在一顆芯片上的四顆處理器視為構成一種高度并行同構架構是不公平的。然而,即使一顆芯片寬大地把它們包含在一類(lèi)中,在2008年日本MPF上,所展示的大多數四引擎同核實(shí)現均采用與硬線(xiàn)連接的加速器接口掛鉤來(lái)實(shí)現的,而不是增加更多的相同的ISA核,以便不需要特殊目的引擎就完成任務(wù)。
豐富的配置
根據處理通用目的控制工作負載所采用的配置以及所實(shí)現的針對特定應用的加速方法,在2008日本MPF上所展示的架構可以分為幾類(lèi)。
在混合架構設計中,控制引擎由作為一個(gè)多核處理器工作的若干通用目的內核實(shí)現或僅僅由一個(gè)內核實(shí)現。引擎可接受的功耗取決于執行通用目的應用以及控制不同的音視頻編解碼器所需要的性能。一般來(lái)說(shuō),處理器必須有效率,但是,所需要的效率范圍進(jìn)一步依賴(lài)于功率的可用性。在起居室中的多媒體應用的要求可能更為寬松,而安裝在汽車(chē)中的系統將期待更佳的效率。蜂窩電話(huà)和其它電池供電的手持設備將被設計為消耗最低的功率。
加速器的設計可以采用幾類(lèi)實(shí)現方案,從采用定制指令集架構(ISA)的內核、參數受控的靈活狀態(tài)機到固定程序硬件連線(xiàn)的實(shí)現。根據在控制處理器以及加速器之間是否需要去掉存儲器訪(fǎng)問(wèn),可能要或不要提供本地存儲器。
架構設計的分配
架構配置的分配結果是不言而喻的(表1)。在表1中,“Text Reference”一列指的是對表中列出的有限陳述的簡(jiǎn)短描述;這些陳述由描述每一個(gè)陳述的加括弧的數字來(lái)識別。
表1:對于在器件的實(shí)現中所采用的架構類(lèi)別來(lái)說(shuō),通過(guò)表中的各欄可以識別在2008日本MPF上展示的最佳匹配的處理器/SoC/IP。處理器的標題為縮寫(xiě)。參考數字可以被用來(lái)查找陳述的簡(jiǎn)短描述。軟件已經(jīng)被包含以實(shí)現完備性,但是并不總是顯示硬件的存在。
為了公平起見(jiàn),我們已經(jīng)省略了兩個(gè)可能顯示異構芯片的主題演講,但是,并不是如此明確。會(huì )議的背景集中在娛樂(lè )之處,并且暗指需要不同的架構配置,這些配置由英特爾公司的副總裁、數字娛樂(lè )組的Ton Steenman以及KDDI Labs公司的執行總監Hiroki Horiuchi做了適當的設置。他們的演講在描述不久將受到歡迎的連接固定和移動(dòng)設備(Ton Steenman) [1]的世界上相互補充,而網(wǎng)絡(luò )和無(wú)線(xiàn)電意味著(zhù)[2]保持它們的工作(Hiroki Horiuchi)。我們還省略了四個(gè)重點(diǎn)放在軟件的演講;我們發(fā)現在18個(gè)新的設計中,17個(gè)不是同構設計。我們還發(fā)現,所介紹的大多數軟件工具重點(diǎn)放在基準上,并提供對同構架構的并行支持。
從統計上看,采用24個(gè)演講作為樣本就得出關(guān)于一個(gè)覆蓋全球人口的平均數的結論是不準確的,除非已知這個(gè)樣本代表可靠的覆蓋率??紤]那些已經(jīng)在2008日本MPF上做演講的公司,我們能夠假設它們大部分代表了IP、處理器以及復雜SoC設計的領(lǐng)導者。如上所述,這一統計數字說(shuō)明,我們試圖解釋的狀況出自如此高度偏向有利于異構架構的樣本。
在大批量銷(xiāo)售的消費娛樂(lè )芯片中,有三個(gè)較之于其它應用更為重要的參數:(1) 流片投資;(2) 在并行化編譯器上缺乏突破;(3) 進(jìn)展緩慢的音視頻標準。
根據作者的感覺(jué),表2示出了對實(shí)現技術(shù)的、總是有幫助但可能引起爭議的定性比較。數字代表分析師的定性估計而不是精確的數據。數字越小則越好。
表2:該表格根據作者的感覺(jué)對各種實(shí)現技術(shù)進(jìn)行了定性比較。數字越小越好。在價(jià)格敏感的應用中,并行同構架構表現不那么好。異構架構將需要重新說(shuō)明,只要新的編解碼器看起來(lái)不能由控制加強的內核執行的話(huà)。然而,這些將在每幾代出現一次,并且大多數的硬連線(xiàn)或定制ISA單元仍將是可重用的。
并行同構實(shí)現根據整個(gè)比較參數被給予一個(gè)平均打分,因為這些實(shí)現在靈活性、降低開(kāi)發(fā)風(fēng)險、遠程診斷或升級上較之于異構架構更好。然而,它們在流片投資以及—更為重要的是—軟件工具上落后于其它架構。
最佳打分仍然看起來(lái)屬于單核或四核、“高頻”實(shí)現。這個(gè)配置將繼續被使用,只要運行應用所需要的性能能夠允許芯片的功耗被保持在控制之中。
對于批量銷(xiāo)售來(lái)說(shuō),兩個(gè)異構是最佳的。流片投資低,使得裸片價(jià)格在消費應用中有競爭力。開(kāi)發(fā)風(fēng)險高,因為它意味著(zhù)要采用ASIC設計且所得到的芯片具有較低的編程靈活性,然而,如果它導致非常高的營(yíng)業(yè)收入就非常值得投資。附加的優(yōu)勢是在定制ISA和硬線(xiàn)編解碼器上:標準進(jìn)化緩慢。設計工程師能夠重用定制ISA以及在許多芯片中的硬線(xiàn)加速器。
芯片和內核被隨意連接至加速器
相當多的演講提供了具有或不具有加速器的、采用一個(gè)小型MP群的選擇權。由ARM公司高級編程經(jīng)理John Goodacre講述的四核MP配置采用了該公司最新的Cortex-A9,它可能被認為是一種混合架構,因為它通過(guò)其N(xiāo)EON協(xié)處理器提供DSP處理。然而,ARM還實(shí)現了一種連接,通過(guò)它多個(gè)處理器群能夠與定制設計的加速器配合工作。MIPS技術(shù)公司的高級工程師Tom Berg介紹了在多線(xiàn)程處理器中的IO一致性,解決了一種類(lèi)似的MP配置。它能夠在SoC中采用該公司的1~4MP核,從而把通用目的處理與調諧器、解碼器以及圖形加速器一起集成進(jìn)混合架構的實(shí)現之中。
Fujitsu Laboratories的演講由Processing LSI Development Group總監Atsuhiro Suga提供。Atsuhiro Suga在2007年日本MPF上就因他的軟件演講而知名。在那時(shí)候,他介紹了一種被用于在多個(gè)處理器之間分配任務(wù)的異步遠程程序調用(ARPC)的應用,它與那些不必在相同的ISA上實(shí)現的引擎集合起來(lái)(見(jiàn)MPR 8/13/07-01, “Fujitsu Calls Asynchronously”一文)。Suga的新演講[5]描述了增加的一種硬件狀態(tài)機,以替代可能相同的處理器之一,迄今為止,這項任務(wù)利用有待狀態(tài)機處理的工作負荷的線(xiàn)程進(jìn)行調度。
英特爾公司的首席架構師Belli Kuttanna介紹了它的Atom芯片,不久前,該公司宣布它已經(jīng)進(jìn)入復雜的采用多種設計的SoC市場(chǎng),其中一些是基于雙線(xiàn)程Atom架構。一個(gè)這樣的SoC設計把計算復雜體與媒體加速器結合起來(lái),實(shí)現圖形、音視頻以及顯示器引擎,還允許第三方知識產(chǎn)權被連接起來(lái)。Atom芯片連接可以隨意接上加速器的處理器組,它們是完全或部分可編程的。
IBM公司的顧問(wèn)研發(fā)工程師Masahiro Murakami講述了IBM的PowerPC4xx SoC平臺[7],描述了允許把用戶(hù)定制邏輯連接至PowerPC內核以創(chuàng )造多核異構設計的接口裝置。這種至PowerPC內核的連接性是通過(guò)把連接內核的本地總線(xiàn)橋接至AHB總線(xiàn)來(lái)實(shí)現的。在以前的單一或異構配置的PowerPC設計中,如Cell BE,可以成為高度集成的SoC的控制器。
異構架構
東芝負責蜂窩項目的項目帶頭人Yoshio Masubuchi演講了該公司的SpursEngine [8],并且是該公司領(lǐng)導該芯片開(kāi)發(fā)的邏輯選擇。 SpursEngine的設計結合了來(lái)自8-SPE Cell BE的四個(gè)增效處理器單元(SPE),加上支持不同視頻編解碼器的硬件加速器。
Trango Japan公司的領(lǐng)導Tom Kobayashi講述了面向DRM的安全執行環(huán)境的實(shí)現。Kobayashi描述了Trango的系統管理程序的安全軟件域的應用。Trango的系統管理程序在一個(gè)或多個(gè)操作系統以及基礎硬件之間形成一種抽象層。它能夠把一個(gè)或多個(gè)處理器分為獨立安全和針對應用執行的域。處理器本身可以是相同的或者可以作為混合架構被實(shí)現。
DxO Labs的首席運營(yíng)官Bruno Liege講述了一種可配置、可編程、面向像素的、高質(zhì)量、高性能、可授權的IP架構[10],它被設計為一種把窄數據路徑、12-bit標量引擎級與寬向量處理級相結合的加速器。多個(gè)ALU結構由采用ARM的AHB總線(xiàn)的內核中的標量邏輯進(jìn)行控制。
CEVA公司的核心架構總監Michael Boukaya的演講與在消費娛樂(lè )中缺乏成功的高度并行引擎的許多其它實(shí)現相比,更為讓人大開(kāi)眼界。CEVA的32-bit DSP單一引擎所獲得的性能是通過(guò)在DSP內核上采用高頻,加上用于專(zhuān)用函數如FFT和維特比的加速器來(lái)實(shí)現的。
德州儀器(TI)的超低功耗MSP430F5xx MCU家族[12]由MSP430 MCU首席架構師Horst Diewald講述,它利用在性能上的提升進(jìn)一步提供超低功耗控制。Horst描述了通過(guò)硬件和軟件相結合來(lái)管理處理器,以實(shí)現諸如遠程抄表、對用于安全目的的氣體泄漏的檢測、個(gè)人醫療以及能量收集等功能所要求的低功耗數字。新家族的芯片增加了一體化外設,如射頻、加密以及至MSP430平臺的LCD接口。
東芝的首席專(zhuān)家Takashi Miyamori介紹的Venezia架構[13]能夠利用由用戶(hù)選擇的主CPU—如ARM或MIPS—實(shí)現一種控制資源,加上由不同的處理器—如控制和線(xiàn)程的分派所需要的—實(shí)現的加速Venezia引擎,一個(gè)調度器,以及一些媒體處理引擎。
ARM公司的研發(fā)組咨詢(xún)工程師Nigel Paver描述了移動(dòng)互聯(lián)網(wǎng)設備(MID)[14]可配備內部處理資源的途徑。根據Paver的介紹,高性能的MID能夠利用由高端攝像機圖像處理器、三維圖形引擎、高清視頻編解碼加速器、TrustZone安全性以及包含GPS基帶功能的、支持的Cortex Aclass內核來(lái)實(shí)現的異構架構。稍廉價(jià)的較低性能MID還可以由TrustZone實(shí)現加密。MID可以由ARM11內核控制。它可以配合較低性能的攝像機、非高清視頻編解碼器、不太先進(jìn)的三維圖形以及一體化的無(wú)線(xiàn)基帶。
此外,ARM公司的高級產(chǎn)品經(jīng)理Chris Porthouse講述了Mali400 MP GPU架構[15],其用途是與ARM CPU內核在同一芯片上工作。Mali-400 Vertex處理器以及多達四個(gè)片段處理器被通過(guò)本地互連連接至MaliMMU。MaliMMU被連接至一個(gè)L2高速緩沖存儲器,它本身接至AXI總線(xiàn)。ARM公司的一部APB外設總線(xiàn)被用于把數據傳輸至Vertex和片段處理器以及至MaliMMU和L2高速緩沖存儲器。
TI公司的圖形軟件工程師Clay D. Montgomery講述了由OMAP3家族之一的OMAP35x應用處理器所采用的圖形內核[16]。TI在OMAP3530高集成度處理器中正采用由Imagination Technologies提供的異構PowerVR SGX圖形內核。該芯片還集成了一種TMS320C64x+ DSP內核,加上圖形外設以及加速器。異構OMAP35x平臺以Cortex-A8內核為基礎。
ADI日本公司微機電技術(shù)組總監Yutaka Katano以及In-Stat技術(shù)分析師Max Baron講述了一種泛系統的異構架構[17],采用了DSP處理器、MEMS、運算放大器以及連接至桌面的藍牙接口。
SATO創(chuàng )始人Tomoyoshi與IPFlex首席技術(shù)官I(mǎi)PFlex介紹了一種異構架構[18],它采用大量不同的功能處理單元(PE)以及能夠更加有效地處理MPEG-2/-4和H.264比特流的增強比特流處理器(BSP)。
PE和BSP單元能夠被動(dòng)態(tài)地重新配置以執行在前景中的各種任務(wù),與此同時(shí),通過(guò)從外部存儲器加載下一個(gè)配置信息而在背景中設置新的任務(wù)。盡管它具有靈活性,IPFlex公司的新引擎能夠執行多個(gè)編解碼器的應用,這一功能在產(chǎn)品發(fā)布之后會(huì )加入設計中,它還能夠被配置為執行針對用戶(hù)的工作負荷。
同構架構
日本嵌入式微處理器基準聯(lián)盟(EEMBC)的區域經(jīng)理Satoshi Otsuka講述了面向多個(gè)內核以及高度并行同構架構的基準狀況。對于MPR了解的最佳情況來(lái)說(shuō),該聯(lián)盟仍然就針對采用相同內核進(jìn)行配置的最初套件進(jìn)行最終完善。瑞薩公司提供且由日本W(wǎng)aseda大學(xué)開(kāi)發(fā)的高性能并行化編譯器所支持的一種8個(gè)CPU的多核處理器[20],被認為應該考慮為同構架構。Waseda大學(xué)的教授Hironori Kasahara以及瑞薩科技公司的部門(mén)經(jīng)理Toshihiro Hattori輪流介紹了OSCAR編譯器以及多核架構。
同構可配置、可擴展處理器
Tensilica公司的技術(shù)福音傳道者Steve Leibson描述了可擴展配置的優(yōu)點(diǎn),他認為,對稱(chēng)多處理器(SMP)架構對于服務(wù)器不錯,但是,在多媒體應用中的運行效率不高。Tensilica的方法就是采用在公司的基本Xtensa架構上實(shí)現的針對應用的ISA[21]來(lái)創(chuàng )建加速器。異構架構—如在愛(ài)普生打印機中所采用的—被用于描述這類(lèi)加速器的應用。
Tensilica公司的Darin Petkov介紹了一種音頻設計,它采用了由ISA擴展獲得的應用專(zhuān)用處理器[22],在該公司的Xtensa LX VLIW基本引擎上構建了大約300個(gè)針對音頻的指令。
ARC公司的首席技術(shù)官Nigel Topham介紹了該公司采用異構架構實(shí)現的VRaptor家族[23],其中有采用ARC 750D CPU針對工作負荷而配置的可編程加速器。該公司在控制它的流以及計算群的協(xié)調群中采用了類(lèi)似的CPU,它們本身作為異構架構被實(shí)現。
Target Compiler Technologies公司的首席執行官Gert Goossens講述了該公司的工具,它們有助于設計工程師創(chuàng )建針對應用的處理器(ASIP)[24]以及從零做起的編程工具。與采用所有其它的針對應用的引擎一樣,一組ASIP內核可以被最優(yōu)化以提供具有最少邏輯的SoC以及對工作負荷的良好分配,唯一的例外就是基本狀態(tài)機或也是從零開(kāi)始設計的簡(jiǎn)單的處理器,從直覺(jué)上看,在流片投資以及功耗上提供優(yōu)勢,而所付出的代價(jià)就是設計一種品牌新架構所需要的額外工程時(shí)間。
本文總結
與多核同構配置相比,異構架構提供有利于流片投資以及功耗的更佳折中?;仡欉^(guò)去可見(jiàn),在流片投資、功耗以及軟件創(chuàng )建上同構架構要變得更為舒適,設計工程師必須看到用于相同ISA內核的更多優(yōu)勢。
目前,同構架構的狀況使之更加適合于高度數據密集的處理工作。對于家庭娛樂(lè )以及移動(dòng)應用來(lái)說(shuō),在一個(gè)量產(chǎn)芯片的設計工程師的喜好中,同構架構僅僅高于FPGA。同構配置將在面向即將出現的應用—如專(zhuān)用圖形、游戲和汽車(chē)視頻圖像識別—中獲得優(yōu)先權。
同構架構在低成本、大批量應用中獲得競爭力以前,硬線(xiàn)連接以及針對應用的內核IP提供商將有機會(huì )贏(yíng)得市場(chǎng)占有率。
評論