高效的C編程之:除法運算
14.2除法運算
因為ARM體系結構本身并不包含除法運算硬件,所以在ARM上實(shí)現除法是十分耗時(shí)的。ARM指令集中沒(méi)有直接提供除法匯編指令,當代碼中出現除法運算時(shí),ARM編譯器會(huì )調用C庫函數(有符合除法調用_rt_sdiv,無(wú)符合除法調用_rt_udiv),來(lái)實(shí)現除法操作。根據除數和被除數的不同,32bit的除法運算一般要占有20-140個(gè)指令周期。除法運算占用的指令周期,由下面公式計算。
Time(除數n/被除數d)
=C0+C1*log2(除數n/被除數d)=
=C0+C1*(log2(除數)-log2(被除數)).
為了避免在程序中出現除法操作,編程時(shí)盡量使用其他運算來(lái)代替除法操作。如,使用x>(z×y)來(lái)代替(x/y)>z。
另外,在無(wú)法避免的除法運算中,盡量使用無(wú)符合除法代替有符號除法。這是因為在A(yíng)RM庫函數中,無(wú)符合除法的運算速度要快于有符合除法。
下面章節將詳細討論如何在代碼中提高除法運算的執行效率。
14.2.1合并除法和求余運算
ARM的除法運算庫函數能同時(shí)返回運算的商和余數。
在一些同時(shí)需要商和余數的情況下,編譯器將調用一次除法運算函數同時(shí)存儲運算的商和余數。
下面是一個(gè)編譯器調用除法庫,同時(shí)存儲運算的商和余數的例子。
源程序如下。
intcombined_div_mod(inta,intb)
{
return(a/b)+(a%b);
}
下面是編譯器編譯出的匯編代碼。
combined_div_mod
STMDBsp!,{lr}
MOVa3,a2
MOVa2,a1
MOVa1,a3
BL__rt_sdiv
ADDa1,a1,a2
LDMIAsp!,{pc}
從上面的例子可以看出,調用一次除法運算,同時(shí)返回了商和余數。
14.2.2使用2的整數次冪做除數
當2的整數次冪做除數時(shí),編譯器會(huì )自動(dòng)將除法運算轉換成移位運算。所以在編寫(xiě)程序算法時(shí),盡量使用2的整數次冪做除數。
下面的例子顯示了編譯器對除法運算的自動(dòng)優(yōu)化。
源程序如下。
typedefunsignedintuint;
uintdiv16u(uinta)
{returna/16;
}
intdiv16s(inta)
{returna/16;
}
編譯器的編譯結果如下。
div16u
MOVa1,a1,LSR#4
MOVpc,lr
div16s
CMPa1,#0
ADDLTa1,a1,#f
MOVa1,a1,ASR#4
MOVpc,lr
從上面的例子可以看出,無(wú)符號除法的運算速度快于有符號除法。
評論