克服嵌入式CPU性能瓶頸
另外,不僅熱電壓與溫度有關(guān),閾值電壓通常也隨溫度變化而變化,這兩種變化將疊加在一起共同影響漏電流。漏電流增加意味著(zhù)靜態(tài)功耗的增加,因此對于低電壓值而言,電壓降低技術(shù)存在一定的實(shí)用性限制。
圖3顯示了兩個(gè)不同溫度下的這些效應。T=300K的第一條曲線(xiàn)顯示了與閾值電壓的指數關(guān)系。T=330K的第二條曲線(xiàn)是考慮了閾值電壓隨溫度變化因素下的估計數據。這樣,橫坐標仍然代表標稱(chēng)閾值電壓,但晶體管的實(shí)際閾值電壓因溫度效應而偏向更低的值,因此對漏電流有較大的影響。
圖3:閾值電壓和溫度對漏電流的影響。
漏電流還與絕緣柵厚度有關(guān)。當采用非常薄的柵極電介質(zhì)時(shí),電子可以穿過(guò)絕緣層形成隧道效應,進(jìn)而形成隧道電流,導致高功耗。鑒于使用32nm及以下工藝時(shí)的實(shí)際柵極長(cháng)度,這種效應在當前半導體技術(shù)工藝中是非常重要的。
當然,處理器內核并不是芯片中唯一耗能的器件。比如內存也消耗相當大的能量,現代處理器專(zhuān)門(mén)開(kāi)辟了大塊裸片區域來(lái)集成多級緩存。
工程師通常會(huì )應用多種設計技術(shù)來(lái)減少內存的漏電流或活動(dòng)系數(功耗公式中的A系數),進(jìn)而達到降低功耗的目的。
例如,緩存等級的層次化組織不僅可以改善數據訪(fǎng)問(wèn)時(shí)間,而且有助于降低消耗的功率,因為更小更近的緩存所需能量比更大更遠的緩存要少。這種結構化解決方案在降低功耗的同時(shí)能保持性能不變。與這種想法類(lèi)似,另外一個(gè)常用的解決方案是將內存組織成庫的形式來(lái)提高效率。這種情況下可以只激活正在訪(fǎng)問(wèn)的庫,從而節省能量。
然而,追求更高性能并不總是正確的做事方式。有時(shí)以一定的吞吐量代價(jià)來(lái)降低功耗就足夠了。有些處理器專(zhuān)門(mén)用于特定的應用,它們總是做相同類(lèi)型的運算,比如DSP。音頻處理、數字濾波器或數據壓縮算法是這些器件的典型應用,評估這些應用的指標是一次操作需要多少能量、這些處理器做這些運算需要花多長(cháng)時(shí)間。
一個(gè)處理器如果在執行算法時(shí)一開(kāi)始就比其它處理器花更多的時(shí)間但消耗更少的功率,那么最終就具有更高的能效值。衡量這種效率的一個(gè)指標是MIPS/W(每秒每瓦百萬(wàn)指令數)。雖然必須關(guān)注指標MIPS,但一般來(lái)說(shuō)具有更高M(jìn)IPS/W的器件被認為具有更高的效率,這對嵌入式設備特別是電池供電設備來(lái)說(shuō)尤其讓人感興趣。事實(shí)上,如今在服務(wù)器和數據中心領(lǐng)域人們更樂(lè )意使用更高能效的處理器。
芯片的傳輸延時(shí)
限制晶體管密度提高和芯片工作頻率增加的另外一個(gè)主要因素是走線(xiàn)的傳輸延時(shí)?,F代處理器中使用的GHz數量級高頻時(shí)鐘意味著(zhù)一個(gè)時(shí)鐘周期不到一個(gè)納秒。這么短的周期時(shí)間正在成為影響信號傳播的一個(gè)問(wèn)題。
減小芯片的特征尺寸將造成柵極長(cháng)度和晶體管電容減小,從而有利于提高時(shí)鐘速率,克服容量范圍限制。但芯片上的走線(xiàn)由于更高的電阻和電容而變得越來(lái)越慢。走線(xiàn)的寬度和高度變小是走線(xiàn)面積縮小的根本原因,并導致更高的電阻。
由于走線(xiàn)表面積變小,與表面積有關(guān)的電容跟著(zhù)降低,但相鄰走線(xiàn)之間的距離也在縮小,最終形成更高的耦合電容。耦合電容增加的速度大于表面電容減小的速度,因此抵消了表面電容減少效應,并形成了更高總體走線(xiàn)電容的組合效應。
走線(xiàn)傳輸延時(shí)直接正比于電阻與電容的乘積:Rw×Cw,因此隨著(zhù)每一代縮小特征尺寸的新技術(shù)的推出,走線(xiàn)延時(shí)變得越來(lái)越長(cháng)。隨著(zhù)時(shí)鐘速率的加快和走線(xiàn)傳輸速度的變慢,信號可以傳輸的距離以及一個(gè)時(shí)鐘周期內可以到達的芯片面積將變小,最終導致通信范圍成為約束條件的新情況。
對于具體的微架構來(lái)說(shuō),這不會(huì )成為大問(wèn)題,因為電路尺寸將以二次方的比例縮小。但為了充分利用更小的晶體管尺寸并獲得更高的IPC,設計師正在開(kāi)發(fā)更為復雜的微架構,生成更深的流水線(xiàn),增加更多的執行單元,并使用大的微架構化結構?,F在,芯片上更高的通信延時(shí)將對尺寸甚至這些結構的布局和最大工作頻率造成實(shí)際的限制。
舉個(gè)例子,Intel Pentium 4中使用的錯誤預測流水線(xiàn)設計要求的級數是Pentium Ⅲ流水線(xiàn)的兩倍。由于具有更高的時(shí)鐘速率和走線(xiàn)延時(shí),流水線(xiàn)必須劃分為更小的段,并且在每級流水線(xiàn)中做更少的工作。但走線(xiàn)延時(shí)變得如此之大,以致于Pentium 4流水線(xiàn)中有兩級是額外增加的,用于將信號從一級驅動(dòng)到下一級,以便有足夠的時(shí)間去執行要求的運算,因為有很多的時(shí)鐘周期時(shí)間用在了信號抵達下一級上。
在A(yíng)RM公司發(fā)布的高級微控制器總線(xiàn)架構(AMBA)規范中,可以看到走線(xiàn)延時(shí)如何影響設計的另一個(gè)類(lèi)似例子。在第一版AMBA規范中引入、設計用于互連高性能系統模塊的高級系統總線(xiàn)(ASB)使用了雙向總線(xiàn)和主/從架構。
在第二版AMBA規范中,引入了高級高性能總線(xiàn)(AHB),用于改善對更高性能的支持,并替代ASB。在這個(gè)新的總線(xiàn)規范中,獨立于其它功能的雙向總線(xiàn)被替換為復用總線(xiàn)機制。這種修改初看起來(lái)似乎增加了不必要的走線(xiàn)和電路復雜性。但在很高性能系統中的走線(xiàn)延時(shí)效應使得有必要引入中繼驅動(dòng)器(與Pentium 4例子中看到的一樣)。這在形成組合式復用總線(xiàn)的單向總線(xiàn)中是可行的,但在雙向總線(xiàn)中很難實(shí)現。
面臨的挑戰
我們已經(jīng)看到有兩個(gè)主要的技術(shù)性限制在不斷影響摩爾定律和和處理器性能的持續改進(jìn)。但技術(shù)在不斷發(fā)展??s小特征尺寸有助于提高晶體管密度和頻率,而設計師也仍在設法縮小晶體管尺寸,單顆芯片上的晶體管數量有望超過(guò)10億個(gè)。
業(yè)界預測,半導體技術(shù)工藝將在2014年達到35nm柵極長(cháng)度,但實(shí)際上從2011年開(kāi)始就已經(jīng)有人在用22nm工藝制造產(chǎn)品了。功耗和傳輸延時(shí)問(wèn)題激勵著(zhù)業(yè)界每個(gè)人去研究制造晶體管的新材料,而在現代處理器中已經(jīng)在應用新的組織化和架構化解決方案。高k值氧化柵(k指的是材料的介電常數)正在替代用了幾十年的二氧化硅柵極電介質(zhì),它能實(shí)現更薄的絕緣層并更好地控制漏電流。
新的低k值電介質(zhì)的使用使得減小耦合電容以及傳輸延時(shí)成為可能。實(shí)現單個(gè)大型單片內核的傳統微架構正在演變?yōu)楦?jiǎn)單的多內核微架構,后者允許占大部分的局部通信,從而避免了大的延時(shí)。
最近一些芯片制造商,如Intel公司,發(fā)布了三維集成電路。Intel最新的Ivy Bridge系列處理器作為Sandy Bridge系列的后繼產(chǎn)品,采用了新的三柵極(tri-gate)晶體管技術(shù),在提升處理能力的同時(shí)可以降低所需的能耗。
使用3D晶體管替代以前的平面結構晶體管后,各級流水線(xiàn)可以彼此垂直堆疊,從而能夠有效地縮短塊與塊之間的距離,消除走線(xiàn)延時(shí)效應。據Intel介紹,公司的22nm 3D Tri-Gate晶體管功耗在相同時(shí)鐘頻率下不到32nm芯片上的平面晶體管的一半,超過(guò)了從一代工藝升級到下一代時(shí)通常所取得的效果。
多內核架構的發(fā)展非常迅速。例如,Tilera公司已經(jīng)在單顆芯片上成功開(kāi)發(fā)出首個(gè)100內核的處理器。為了達到這種集成度,Tilera將處理器與他們的設計師稱(chēng)之為“瓦片(tile)”的通信開(kāi)關(guān)組合在一起。通過(guò)組合這些瓦片,Tilera公司能夠搭建出一個(gè)形成網(wǎng)狀網(wǎng)的硅片。處理器一般通過(guò)總線(xiàn)互相連接,但隨著(zhù)處理器數量的增加,這種總線(xiàn)很快變成了瓶頸。借助Tilera用瓦片平鋪出的網(wǎng),每個(gè)處理器連接一個(gè)開(kāi)關(guān),它們可以像點(diǎn)到點(diǎn)網(wǎng)絡(luò )那樣相互通信。除此之外,每個(gè)瓦片可以獨立運行一個(gè)實(shí)時(shí)操作系統?;蛘吣阋部梢詫⒍鄠€(gè)瓦片組合在一起,運行像SMP Linux那樣的操作系統。
目前業(yè)內正在研究開(kāi)發(fā)令人稱(chēng)奇的石墨烯晶體管,每個(gè)晶體管都是用一片僅一個(gè)原子厚度的碳制造的。理論上,這些晶體管支持非常高的工作頻率,可以高達1THz(1000GHz),甚至可以在柔性基板上制造這些晶體管。不過(guò)這種技術(shù)還面臨許多挑戰,我們可能還要等幾年才能看到這些先進(jìn)技術(shù)實(shí)用化。
本文小結
目前業(yè)界面臨的問(wèn)題是如何充分發(fā)揮這種巨大的并行處理能力。但嵌入式軟件行業(yè)已經(jīng)在開(kāi)發(fā)強大的工具來(lái)幫助構建新的、復雜的許多內核應用世界。
針對共享和分布式存儲架構的OpenMP和MPI建議、以及針對不同種類(lèi)系統的并行編程制定的開(kāi)放標準OpenCL(開(kāi)放計算語(yǔ)言)都非常有前途。利用OpenGL可以為混合有多內核CPU、GPU甚至DSP的系統開(kāi)發(fā)出合適的軟件。但最大的挑戰可能是改變編程人員的想法,使他們學(xué)會(huì )如何編寫(xiě)出適合在這些系統運行的高度并行和可靠的軟件。
評論