嵌入式系統中軟件優(yōu)化的低功耗研究
引言
從20世紀70年代世界上第一個(gè)為嵌入式應用而設計的微處理器Intel 4004誕生以來(lái),嵌入式系統已經(jīng)發(fā)展了30多年。近幾年,嵌入式系統(embedded system)已經(jīng)成為電子信息產(chǎn)業(yè)中最具增長(cháng)力的一個(gè)分支。隨著(zhù)手機、PDA、GPS、機頂盒等新興產(chǎn)品的大量應用,嵌入式系統的市場(chǎng)正在以每年30%的速度遞增,嵌入式系統的設計也成為軟硬件工程師越來(lái)越關(guān)心的話(huà)題。
嵌入式系統是以應用為中心、以計算機技術(shù)為基礎,并且軟硬件可裁減,適用于應用系統對功能、可靠性、成本、體積、功耗等有嚴格要求的專(zhuān)用計算機系統[1]。在嵌入式系統的設計中,低功耗設計(Low-Power Design)是必須面對的問(wèn)題。其原因在于嵌入式系統被廣泛應用于便攜式和移動(dòng)性較強的產(chǎn)品中,而這些產(chǎn)品不是一直都有充足的電源供應,往往靠電池來(lái)供電,所以應從每一個(gè)細節來(lái)考慮降低功率消耗,盡可能地延長(cháng)電池的使用時(shí)間。事實(shí)上,從全局來(lái)考慮低功耗設計已經(jīng)成為了一個(gè)越來(lái)越迫切的問(wèn)題。
低功耗是便攜式電子設備必須具備的一個(gè)關(guān)鍵特性。過(guò)去幾年的研究主要針對硬件部分,而現在人們則更注重通過(guò)優(yōu)化軟件部分來(lái)降低系統功耗。要想對軟件進(jìn)行優(yōu)化,必須了解每條指令所產(chǎn)生的功耗,并選擇正確的編譯方法,以降低程序執行的功耗。由于各種微處理器架構不同,指令集和功耗也不一樣。因此,適用于某一處理器的優(yōu)化方式并不一定適用于其他處理器。這樣,選擇與可降低功耗的軟件相匹配的微處理器便十分重要。
1 編譯優(yōu)化
編譯器的作用是將由高級語(yǔ)言編寫(xiě)的程序,如C/C++等,翻譯成能夠在目標機上執行的程序。換句話(huà)說(shuō),編譯器為高級語(yǔ)言程序員提供了一個(gè)抽象層,使得程序員能夠通過(guò)編寫(xiě)與實(shí)際問(wèn)題相近的高級語(yǔ)言代碼(而不用匯編或者機器語(yǔ)言),方便地解決實(shí)際問(wèn)題;同時(shí),也使得程序的可讀性和可維護性得到保證,提高軟件開(kāi)發(fā)的效率。另外,將程序移植到新的目標機,也只要用相應的編譯器對程序進(jìn)行重新編譯,而不必重新編寫(xiě)程序。
但是某些情況下,這樣的做法是以犧牲程序的執行性能為代價(jià)的。編譯器的有效性以及它所生成的代碼效率,可以與專(zhuān)家級的匯編/機器語(yǔ)言程序員所編寫(xiě)的代碼相比較得出,因此可以通過(guò)對編譯器的優(yōu)化,生成效率更高的代碼。
通過(guò)優(yōu)化編譯器可以有效地降低嵌入式設備的功耗。在一個(gè)程序中,每一條指令都將激活微處理器中的某些硬件部件,因此,正確選擇指令可降低處理器的功耗。通過(guò)建立特定處理器架構下指令集的功耗信息,利用“減少跳轉的指令重排序”等方法,可以進(jìn)行有效的軟件低功率優(yōu)化。
這里作兩點(diǎn)假設:① 每一條指令都有一個(gè)固定量的功率;② 每條指令的散熱與它的操作數及其他指令無(wú)關(guān)。從圖1可以看到,通過(guò)對指令的重新排序,可以把一段程序的初始功率狀況,如圖1(a)所示,轉換成圖1(b)所示的那樣??梢缘贸鲞@樣的結論:盡管兩種情況中局部區域的散熱狀況不一樣,但是它們所消耗的總電能是一致的。換句話(huà)說(shuō),可以在不影響總耗電的情況下,對程序的局部散熱情況作出某些調整,以符合實(shí)際的需要。下面通過(guò)將指令進(jìn)行重新排序來(lái)實(shí)現系統功耗的降低[2]。
圖1程序內局部區域功率的兩種可能性
2 指令排序
我們知道,運行某一特定程序的處理器的功率P=I×Vdd(I為平均電流,Vdd為給定的電壓),則程序的功耗E=P×t(t為程序的執行時(shí)間);同時(shí),t=N×T(T為指令周期),即為主頻的倒數,N為程序執行的周期數)。在嵌入式系統,尤其是在移動(dòng)設備中,一般都通過(guò)電池供電,故系統的功耗是一個(gè)非常重要的指標?,F在,Vdd和T都是已知量,因此程序消耗的電能E與電流I和程序周期數N的乘積成正比。這里通過(guò)引用參考文獻[3]中所建立的模型來(lái)進(jìn)行闡述。該模型中通過(guò)示波器等設備,測量并估計執行每條指令所需要的電流I[4]。綜上所述,可以利用嵌入式處理器中的多數據存儲區域的特性,實(shí)現數據的并行處理,通過(guò)對指令的排序,減少指令的執行周期,從而達到降低功耗的目的。
2.1 舉例
假設有一段C語(yǔ)言程序,如圖2(a)所示。圖2(b)是其相應的匯編代碼,圖2(c)表示每個(gè)結點(diǎn)帶有兩個(gè)權值的數據依賴(lài)圖(Data Dependence Graph,DDG)。第一個(gè)權值表示結點(diǎn)在DDG中的深度,如V10的第一個(gè)權值為1,V0的第一個(gè)權值為6。假設這個(gè)權值越大,表示其優(yōu)先級越高,如圖2(c)中V0和V1具有最高的優(yōu)先級。
圖2C語(yǔ)言代碼、匯編代碼與數據依賴(lài)圖
圖3為未使用文中的算法前指令的執行順序。注意,圖中的黑體字,即V2、V6以及V9,與其他指令不同。它們是ADD或者M(jìn)PY指令,需要用到系統的ALU部件。在同一指令周期中,可以同時(shí)執行ALU運算以及MOVE操作,但是不可以同時(shí)執行兩個(gè)ALU操作。
圖3指令排序前結點(diǎn)的執行順序
節點(diǎn)的第二個(gè)權值,表示相關(guān)寄存器的生命周期。如圖4所示,V0所依賴(lài)的寄存器是r0,它的生命周期為1到3,即為2。從圖中可以得出以下結論:此段程序總共需要11個(gè)指令周期和最少同時(shí)使用2個(gè)寄存器。
圖4指令排序前的狀況
圖5為基于本文的算法,將指令重新排序后的情況。程序總的執行周期變?yōu)?,但是所占用的寄存器個(gè)數增加到3。由此也可以看到,程序的執行周期與寄存器的個(gè)數之間也是一個(gè)折衷權衡的結果。
圖5基于排序算法后的情況
文中借用了參考文獻[3]中所建立的模型,用以計算程序的耗電量。在圖5中,程序執行時(shí)所需要的總電流I=780 mA,總的執行周期數為N=6,因此消耗電路E=N×I=6×780 mA=4 680 mA。不使用任何算法的情況,即圖2所示,E=N×I=1 080×11=11 880 mA。通過(guò)使用文中的算法,將程序執行周期減少了,同時(shí)程序的功耗也降低了。也就是說(shuō),通過(guò)使用文中的算法,程序的執行性能得到提高,系統的功耗也最大程度地得到了優(yōu)化。由此可見(jiàn),在這一層面上,采用何種算法是非常重要的。
2.2 算法描述
文中的算法是基于文獻[5]中提出的以串列為基礎的排序機制,主要是以減少程序的執行周期為目的,同時(shí)考慮到使用盡量少的寄存器。程序的描述如下:
?、?構造數據依賴(lài)圖DDG。
?、?構造帶權的元組,其中第一個(gè)權值為結點(diǎn)在DDG中的深度,設為P;第二個(gè)權值為生命周期,設為L(cháng)。
?、?查找就緒表R(如圖3所示)。
?、?while就緒表R不為空 do
P值為最高結點(diǎn)所具有的最高優(yōu)先級
if當前指令周期中的結點(diǎn)的深度
if存在幾個(gè)結點(diǎn)
if結點(diǎn)具有相同的優(yōu)先級
if結點(diǎn)具有相同的生命周期
則在DDG中處于相同子樹(shù)的結點(diǎn)具有高優(yōu)先級,加入到新的排序序列中(使在進(jìn)行ALU操作時(shí)執行1至2條MOVE指令成為可能)
else
生命周期越小的結點(diǎn)越具有高優(yōu)先級,加入到新的排序序列中(用于減少寄存器數)
else
具有最大深度的結點(diǎn)具有高優(yōu)先級,加入到新的排序序列中(用于減少指令周期) else直接加入到新的排序序列中
else
break
在以上的算法中,結點(diǎn)的深度是最為重要的。它用于控制整個(gè)程序所需的指令周期數,從而使程序的功耗得到有效的控制。另外,結點(diǎn)的生命周期也是相當重要的,它可以控制程序中所用到的寄存器的個(gè)數。這在DSP處理器中顯得尤為重要。同時(shí),該算法也充分利用了處理器的數據并行處理能力,為在同一指令周期內執行不同的操作提供了可能。
3 結論
近年來(lái),功耗成為嵌入式應用領(lǐng)域的一個(gè)越來(lái)越令人關(guān)注的問(wèn)題。尤其是在移動(dòng)設備中,由于通過(guò)電池供電,功耗顯得尤為重要。當前的編譯器很少能夠充分利用處理器的各種特性,因此編譯生成的代碼不能與那些專(zhuān)家級匯編程序員寫(xiě)出的代碼相提并論。本文從軟件角度出發(fā),提出了一個(gè)優(yōu)化編譯器,對指令進(jìn)行重新排序的算法,通過(guò)優(yōu)化編譯器來(lái)實(shí)現降低系統的功耗。下一步工作則要選擇和研究某種特定的微處理器,然后創(chuàng )建相關(guān)工具,產(chǎn)生這種微處理器的指令集功耗信息,再進(jìn)一步運用該算法實(shí)現編譯優(yōu)化,最終實(shí)現功耗的優(yōu)化。
參考文獻
1 Wayne Wolf. 嵌入式計算系統設計原理. 孫玉芳等譯. 北京:機械工業(yè)出版社,2002
2 Sathishkumar Udayanarayanan. Energyefficient code generation for DSP56000 family, MS. Thesis in Arizona State University (Aug. 2000)
3 Gibbons P A, Muchnick S S. Efficient Instruction Scheduling for a Pipelined Processor, in Proc. of the SIGPLAN Symposium on Compiler Construction (July1986), pp. 11-16
4 Ulrich Kremer. Low Power/Energy Compiler Optimizations
5 WenTsong Shiue. Retargetable Compilation for Low Power王力生,碩士生導師。夏志江,碩士:主要研究方向為嵌入式系統及其應用。
評論