功率與性能:DSP設計面臨的終極挑戰
多年來(lái),數字信號處理器 (DSP) 設計人員一直在應付這樣一項艱難的工作:提供占用空間小的高性能芯片,而且要不影響靈活性和軟件的可編程能力。
本文引用地址:http://dyxdggzs.com/article/82065.htm由于新的應用程序發(fā)展速度驚人,提供的 DSP 必須在功率、性能和使用壽命上跟上這種速度,應對當前面臨的挑戰,并準備好應對未來(lái)的應用。這些高性能多核心 DSP被越來(lái)越多地應用在電信接入、改進(jìn)數據率GSM服務(wù)(EDGE)和基礎設施設備領(lǐng)域,用來(lái)處理語(yǔ)音、視頻和無(wú)線(xiàn)電信號。
以前,電信設備制造商使用專(zhuān)用的 ASIC 或 DSP-ASIC 組合來(lái)達到自己的目標?,F在,這些新的 DSP 可以替代那些繁瑣的解決方案;如果足夠強大,它們還可以實(shí)現以前的解決方案所無(wú)法實(shí)現的靈活性。對于那些必須在網(wǎng)絡(luò )部署中持續使用多年的接入和基礎設施設備而言, 這些靈活的解決方案是大有裨益的。假如這些類(lèi)型的設備和應用程序的使用壽命得到延長(cháng),那么,成功的關(guān)鍵就是靈活性、適應性和現場(chǎng)可編程性。
在目前的技術(shù)條件下,ASIC 在靈活性或現場(chǎng)可編程性方面不如 DSP,但 DSP 的能耗較大,這讓芯片設計人員左右為難。不過(guò),還是有希望:新一代的多核心 DSP 可以同時(shí)做到高性能和高能效。做到這點(diǎn)的技術(shù)是存在的,但必須先解決“功率耗散”(功率極限)問(wèn)題。
功率極限
目前,芯片功率耗散的源頭有兩個(gè):以泄漏形式出現的靜態(tài)現象;以開(kāi)關(guān)運算形式出現的動(dòng)態(tài)現象。在采用 90 納米和以下工藝的 CMOS 技術(shù)中,這種功率耗散現象最為明顯。但是,新一代的 DSP 設計不僅能減輕和避開(kāi)這種功率極限,而且實(shí)際上可以提高基礎設施、接入和 EDGE 設備的處理能力,同時(shí)限制功率消耗和熱量耗散。
部分特定CMOS 技術(shù)下的能耗界定的關(guān)鍵度量指標:
•電源電壓
•門(mén)開(kāi)關(guān)速度
•門(mén)輸入電容
•門(mén)功耗
•每個(gè) MAC 運算消耗的能源
研究表明,同等功能(如 MAC 單元)的功率密度(即單位面積的功率)在 0.13 微米(含)以上的芯片中相當穩定。但是,到達 90 納米時(shí),這個(gè)指標會(huì )突然升高。
在采用 0.13 微米技術(shù)以前,DSP 設計能夠在提高性能的同時(shí)降低功率,從而可以在單個(gè)芯片中植入更多的電路。這主要是通過(guò)減小尺寸并降低電壓實(shí)現的。采用了 90 納米技術(shù)后,所有這一切就都行不通了。
現在面臨的是以性能換功能的問(wèn)題,這是設備制造商所不愿遇到的情況:在一個(gè)芯片中植入更多電路但降低性能,或者減少電路數以減少功能。
由于“功率極限”的情形繼續存在,設計人員一直在通過(guò)增加功耗來(lái)獲得性能和功能方面的優(yōu)勢。但是,這會(huì )帶來(lái)一種新的風(fēng)險:達到熱量耗散的極限。所產(chǎn)生的問(wèn)題可能已經(jīng)在當前市場(chǎng)上最新一代的通用多核心 DSP 中出現。
零-和博弈:靜態(tài)能效
因為性能是基礎設施、接入和 EDGE 應用的主要目標,因此設計人員一般并不關(guān)心零待機功率問(wèn)題。因此,通常采用通用硅工藝來(lái)優(yōu)化性能,而不會(huì )選擇低泄漏的硅。選擇低泄漏的硅可以降低待機功率,但也會(huì )降低速度和性能。
這就要求有選擇地使用晶體管。
在使用電池的設備中,高電壓閾值 (HVT) 可能是最佳的;但在基礎設施應用中,首選的是標準電壓閾值 (SVT) 技術(shù)。
例如,假如某個(gè)設計使用 HVT 邏輯運算,并且電源電壓為 1.2V,則將連續產(chǎn)生 20mW 的泄漏功率。如果以最大容量運算,則將消耗 1W 的動(dòng)態(tài)功率。
使用 SVT 邏輯運算的相同設計在電源電壓為 1.0V 時(shí)可以實(shí)現幾乎相同性能,產(chǎn)生的泄漏功率多出 4 倍 (100mW),但動(dòng)態(tài)消耗的功率只有 694mW (1.02 /1.22 = 0.694)。
因此,泄漏較高的 SVT 設計消耗的總功率只有 790mW,而相比之下,HVT 設計的消耗總功率為 1.02W。前者比后者節能 23%。
HVT 設計和 SVT 設計的功耗比較
盡管與人們預料的情況相反,這一示例表明,使用較高泄漏的 SVT 邏輯與使用低泄漏的 HVT 邏輯相比,可以在總體上節能,這是因為后者電路中的開(kāi)關(guān)活動(dòng)量很大。對于乘法和累加 (MAC) 電路,這種設計特別有用;但如果用在低活動(dòng)因素的電路(如 RAM 電路或測試電路)上,則會(huì )出現相反的結果。因此,SVT 邏輯適用于基礎設施中“始終打開(kāi)”的設備。
動(dòng)態(tài)化:能效優(yōu)化
時(shí)鐘樹(shù)和邏輯切換都會(huì )導致動(dòng)態(tài)能耗,必須在新一代多核心 DSP 中進(jìn)行處理。通過(guò)不斷優(yōu)化這兩種耗能因素的設計,可以極大地改進(jìn)能效指標。
時(shí)鐘樹(shù)(用于實(shí)現同步時(shí)鐘以觸發(fā)設計的線(xiàn)網(wǎng)和緩沖區)會(huì )在其自身的觸發(fā)運算過(guò)程中從芯片中吸收一些能量。在對最新的高速芯片中遍布的時(shí)鐘樹(shù)(通常數量較大)進(jìn)行充電和放電的過(guò)程中,也會(huì )消耗能量。此外,有些新一代 DSP 使用了速度更快的時(shí)鐘 (1GHz 或更高),這就需要耗能更多的更大的激勵器。如果要通過(guò)芯片和相關(guān)的時(shí)滯最小化時(shí)鐘傳播延遲,則需要更大的激勵器。這又導致消耗更多的能量。
用于降低能耗的時(shí)鐘樹(shù)門(mén)控
設備設計人員可以通過(guò)組合以下成熟的技術(shù)來(lái)降低時(shí)鐘樹(shù)中的能耗:
•單獨啟用時(shí)鐘的觸發(fā)器,可以在需要計時(shí)時(shí)限制觸發(fā)運算的次數。
•門(mén)控時(shí)鐘樹(shù),可以在不使用時(shí)動(dòng)態(tài)阻止對整個(gè)電路段計時(shí)。
•多循環(huán)路徑設計,可以減少電路中的觸發(fā)次數以及觸發(fā)的頻率。
•在架構上可行的情況下組合計算線(xiàn)路,從而讓一系列 的MAC 運算可以在級聯(lián)組合電路而不是同步反饋電路中實(shí)現。借用多循環(huán)路徑技術(shù);這種方式可以極大地減少所用的觸發(fā)次數并降低觸發(fā)頻率。
•最小化觸發(fā)器和電路的使用范圍,使用物理尺寸較小的時(shí)鐘樹(shù),從而縮小所需的激勵緩沖區。
最后,消除全部時(shí)鐘樹(shù)可以在提高性能的同時(shí)極大地降低能耗。無(wú)時(shí)鐘設計技術(shù)可以用在耗能最多的邏輯電路部分。思想超前的設計人員會(huì )積極地追隨上述解決方案。在解決性能和功率之間一直存在的沖突時(shí),無(wú)時(shí)鐘設計是效率最高、成本效益最好的方式。
邏輯切換在能耗方面發(fā)揮著(zhù)重要的作用,因為整體能耗都發(fā)生在邏輯切換狀態(tài)轉換的充電和放電過(guò)程中??梢圆捎靡韵鲁墒旒夹g(shù)的組合來(lái)最大程度地減少邏輯轉換中的能耗。
•優(yōu)化物理門(mén):這種技術(shù)可以實(shí)現最大的能效指標收益,對于較小的芯片尺寸技術(shù)更是如此。雖然其原理非常簡(jiǎn)單,但使用當前的布局工具和方法來(lái)實(shí)現這種技術(shù)卻有一定難度;因為這些工具和方法原來(lái)的開(kāi)發(fā)目的是加快推出產(chǎn)品,犧牲性能來(lái)提高設計的水平和復雜度。
最終發(fā)明了物理門(mén),可以使用某種抽象語(yǔ)言 (如 VHDL)來(lái)根據設計人員的功能目標來(lái)創(chuàng )建芯片。這種技術(shù)既有優(yōu)點(diǎn)也有缺點(diǎn)。目前的標準方法是讓設計人員避開(kāi)物理實(shí)現方式的細節,從而加快產(chǎn)品推出的速度。
這種技術(shù)的缺點(diǎn)是復雜芯片的設計人員無(wú)法控制其設計,包括無(wú)法控制線(xiàn)路的長(cháng)度,從而可能極大地增加電路的總電容。在找出最佳的線(xiàn)路和電路設計方面,設計人員仍然優(yōu)于設計工具。如果使用成熟的技術(shù)并深入了解設計細節,人腦的判斷仍然具有優(yōu)勢。設計人員還可以立即發(fā)現集成電路的細微變化可能成倍減少互連線(xiàn)路長(cháng)度的情況。事實(shí)上,記錄的信息顯示,有人干預的物理門(mén)技術(shù)可以將電路線(xiàn)路的平均長(cháng)度最高縮減一半(與傳統的最佳自動(dòng)后端工具中實(shí)現的相同設計相比)。而且,由于戰略性布線(xiàn)實(shí)現的電路集成度可以輕松地將硅使用率提高到 90% 以上。這意味著(zhù),與使用自動(dòng)后端工具的結果相比,硅使用率提高了大約 20%。
此外,與自動(dòng)布線(xiàn)和路由的設計相比,激勵這些極短線(xiàn)路的門(mén)通常尺寸較小,能耗也更低。因此,與自動(dòng)布線(xiàn)的同類(lèi)設計相比,整個(gè)電路的尺寸更小,運算速度更快,能耗也大幅降低。在 90 納米技術(shù)中僅使用低 HVT 邏輯元素時(shí),這種電路集成技術(shù)允許整個(gè)數據路徑引擎以 1.5-2GHz 的速度運行,而其能耗與傳統設計的同類(lèi)電路相比最多可降低 4 倍。
•優(yōu)化長(cháng)信號的線(xiàn)路:與其它高功率高速度的電路元素結合使用時(shí),長(cháng)信號線(xiàn)路可以顯著(zhù)地提高性能。例如,數據總線(xiàn)可以使用長(cháng)路由并頻繁改變狀態(tài)。降低此類(lèi)線(xiàn)路的整體電容可以極大地降低能耗,加快速度,并減少緩沖需求。但是,設計人員面臨的難題是:要通過(guò)加大間距布置長(cháng)信號來(lái)降低電容,同時(shí)仍要允許線(xiàn)路器關(guān)閉設計中密度極高的部分。其中的部分工具和方法包括:
•消除對狀態(tài)進(jìn)行無(wú)益更改的電路:禁用其更改后的輸出不會(huì )被使用的任何電路。這可以通過(guò)使用時(shí)鐘門(mén)控實(shí)現
•減少高頻門(mén)的數量:PC 處理器芯片(如 Pentium™ 和其它處理器)已經(jīng)證明,提高功能要以增加能耗為代價(jià)。能耗的指數級增長(cháng)源于利用以下一種或多種技術(shù)提高電路的性能:
-使用復雜度更高的電路(即使用超前加法器而不是并行加法器),則會(huì )占用更大的面積,消耗更多的能量;
-使用較大的門(mén)、緩沖區和激勵器來(lái)加快切換速度,致使回報的逐漸減小。
通常,同等的性能可以通過(guò)使用更簡(jiǎn)單、速度更慢的電路實(shí)現;這些電路以并行方式運算,或者采用慢速的多循環(huán)路徑,這可以極大地降低能耗。但是,與人們預料的情形相反,此類(lèi)電路通常占用的總體面積較小。事實(shí)上,即使以并行方式使用,它們的總布線(xiàn)量通常較少。這是因為,從個(gè)體上看,與更快、更大、更耗能的大型電路相比,它們在每個(gè)實(shí)例上所需的門(mén)數更少,門(mén)更小。
•降低電壓切換擺幅的大?。和ㄟ^(guò)長(cháng)總線(xiàn)和時(shí)鐘線(xiàn)降低電壓切換擺幅,可以進(jìn)一步降低能耗。這涉及使用具有較小的電壓擺幅的平衡傳輸線(xiàn)技術(shù),諸如在高性能內存設計中使用的技術(shù)(如差動(dòng)放大器)。此類(lèi)傳輸線(xiàn)以較小的電壓切換運行,可以極大地降低能耗。盡管這種技術(shù)通常需要在芯片中使用中間電壓軌/平面,這些傳輸線(xiàn)的狀態(tài)更改速度可以達到傳統 CMOS 軌到軌線(xiàn)路速度的 10 倍;在能耗相同的情況下,可以極大地提高能效指標。
•規劃電壓運算范圍:設計人員在確定其系統規格時(shí),應該有所節制。并非系統中的每個(gè)元素都需要有很高的性能,對于哪些不屬于對整個(gè)系統至關(guān)重要的 10% 的功能的元素更是如此。事實(shí)上,以盡可能精益的方式運行其它 90% 的功能是可以接受的。因此,設計人員應采用不同的電壓軌區別對待電路的各個(gè)部分。例如,可以為 10% 的芯片線(xiàn)路提供 1.2V 的電壓使其以 3GHz 的速度運行,為另外 40% 的線(xiàn)路提供 1.0V 的電壓使其以 1GHz 的速度運行,而對剩余的 50% 線(xiàn)路提供 0.8V 的電壓使其以 400MHz 的速度運行。在總體上,可以實(shí)現特定應用可以達到的最佳整體能效指標。
控制能效問(wèn)題
隨著(zhù)應用程序越來(lái)越多樣化,工具變得越來(lái)越復雜,電信接入和基礎設施設備的設計人員在如何以恰當的代價(jià)構建高性能產(chǎn)品并實(shí)現合理的使用壽命的問(wèn)題上費盡心思。但是,芯片設計方法的不斷細化和專(zhuān)業(yè)化使得許多產(chǎn)品無(wú)法接觸到這些技術(shù)。對于那些由專(zhuān)門(mén)的工程設計人員組成的大型團隊使用一流的后端設計工具設計的芯片,其面臨的困難尤其突出。值得慶幸的是,有多種技術(shù)可以管理芯片的能效指標,獲得高達 3:1 MIPS/功率比。這些技術(shù)中既有非常簡(jiǎn)單的技術(shù),也有極其復雜的技術(shù),可以提供范圍廣泛的改進(jìn)可能性。
出人意料的是,最有效的技術(shù),諸如優(yōu)化布局布線(xiàn),當使用為該特定目的而設計的工具并基于設計者的最佳判斷和智慧時(shí)會(huì )變得相對比較簡(jiǎn)單。
評論