<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > 基于A(yíng)RM的除法運算優(yōu)化策略

基于A(yíng)RM的除法運算優(yōu)化策略

作者: 時(shí)間:2007-02-06 來(lái)源:網(wǎng)絡(luò ) 收藏
與傳統的48位單片機相比,的性能和處理能力是遙遙領(lǐng)先的。但與之相應,的系統設計復雜度和難度,較之傳統的設計方法也大大提升了,同時(shí)也大大拓展了針對芯片特性進(jìn)行的空間,例如針對指令流水線(xiàn)的、針對寄存器分配進(jìn)行的等。


ARM
在硬件上不支持指令,編譯器是通過(guò)調用C庫函數來(lái)實(shí)現的,有許多不同類(lèi)型的程序來(lái)適應不同的除數和被除數。但直接利用C庫函數中的標準整數除法程序,根據執行情況和輸入操作數的范圍,要花費20100個(gè)周期,消耗較多的軟件運行時(shí)間。在實(shí)時(shí)嵌入式應用中,對時(shí)間參數較為敏感,故可以考慮如何優(yōu)化避免除法消耗過(guò)多的CPU運行時(shí)間。


除法和模
(/和%)執行起來(lái)比較慢,所以應盡量避免使用。但是,除數是常數的除法和用同一個(gè)除數的重復除法,執行效率會(huì )比較高。在ARM中,可以利用單條MUL指令實(shí)現乘法操作。本文將闡述如何用乘法運算代替除法運算,以及如何使除法的次數最少化。

 

1 避免除法運算

在非嵌入式領(lǐng)域,因為CPU運算速度快、存儲器容量大,除法操作通常都是不加考慮直接使用的。但在嵌入式領(lǐng)域,首先需要考慮的是這些除法操作是否是必須的。以對環(huán)形緩沖區操作為例,經(jīng)常要用到除法,其實(shí)完全可以避免這些除法運算。


假定有一個(gè)buffer_size大小的環(huán)形緩沖區,如圖1所示,0ffset指定目前所在的位置。通過(guò)increment字節來(lái)增加offset的值,一般是這樣寫(xiě)的:

0ffset=(Offset+increment)buffer_size;


效率更高的寫(xiě)法是:

offset+=increment;

if(offset>=buffer_size){

offset=buffer_size;

}


第一種寫(xiě)法要花費50個(gè)周期,而第二種因為沒(méi)有除法運算,只須花費3個(gè)周期。這里假定incrementbuff_er_size,在實(shí)際應用中這點(diǎn)應該是保證的。


如果不能避免除法運算,那么就應盡量使除數和被除數是無(wú)符號的整數。有符號的除法程序執行起來(lái)更加慢,因為它們先要取得除數和被除數的絕對值,再調用無(wú)符號除法運算,最后再確定結果的符號。

 

2 充分利用商和余數

許多C語(yǔ)言庫中的除法函數返回商和余數。換句話(huà)說(shuō),每一個(gè)除法運算,余數是可以無(wú)償得到的,反之亦然。例如,要在屏幕緩沖區找到偏移量為offset的屏幕位置(x,y),可以這樣寫(xiě):

typeclef struct{

int x;

int y;

}point;

point getxy_v1(unsigned int offset,unslgned int bytes_per_line){

point p;

py=offsetlt)ytes_per_line;

px=offset - py* bytcs_per_line;

return p;

}

 

這里,似乎對px使用減法和乘法,少了一次除法運算;但是,實(shí)際上使用模運算或者取余操作效率更高,對

getxy_vl改進(jìn)如下:

point getxy_v2(unsigned int offset,unsigned int bytes_per_line){

point P;

Px=offsetbytes_per_1ine;

Py=offsetbytes_per_line;

return P;


從下面編譯器的輸出結果可以看到,只有一次除法調用。實(shí)際上,這個(gè)程序要比前面的getxy_vl4條指令(注意,并不是對所有的編譯器和C庫都有這樣的結果)。getxy_v2

STMFD r13!,{r4,r14};保存r4,lr人堆棧

MOV r4,rO ;賦值后r4保存的為點(diǎn)P基址

MOV rO,r2 ;rO=bytes_per_line

BL rt_udiv ;調用無(wú)符號除法例程

(r0.;r1)=(rlrO,rlrO)

STR r0,[r4,#4] ;Py=offsetbytes_per_line

STR rl,[r4,#o] ;Px=offset%bytes_per_line

LDMFD r13!,(r4,pc);恢復上下文,返回

 

3 把除法轉換為乘法

在程序中,同一個(gè)除數的除法經(jīng)常會(huì )出現很多次。在前面的例子中,bytes_per_line的值在整個(gè)程序中都是固定不變的。又如32笛卡爾坐標變換,其中就使用了同一個(gè)除數兩次:

(x,Y,x)(xz,yz)


這種情況下,使用cache指令中的值1z,并使用1z的乘法來(lái)代替除法運算,效率會(huì )更高。另外,要盡可能使用int類(lèi)型的運算,避免使用浮點(diǎn)運算。


下面將更加偏重于從數學(xué)和理論的角度分析,把重復除法轉換成乘法運算。


下面來(lái)區分精確數學(xué)意義上的除法和整型除法運算:

nd,即整數n被分成整數d份,結果趨向于O(C語(yǔ)言相同);

nd,即nd除之后的余數,就是n--d(nd);

◇n/d=nd-1,即真正數學(xué)意義上的nd除。


當使用整型除法時(shí),最容易估算
d-1值的方法是計算232d。然后,就可以估算nd為:

(n(232d))232 (1)


在執行
n的乘法時(shí),需要精確到64位。對于這種方法,會(huì )出現如下問(wèn)題:

◇為了計算232d,由于一個(gè)unsigned int類(lèi)型的數據放不下232,編譯器要使用64long long類(lèi)型的數,而且必須指定除法為(1 ull32)d。這種64位的除法比32位的除法執行起來(lái)要慢得多。

◇如果d碰巧是1,那么232d就不再適合于unsigned int數據類(lèi)型。


上面的做法似乎很好,而且解決了這兩個(gè)問(wèn)題。那么,再來(lái)看一下用
(2321)d代替232d。

s=0xffffffff uld (2)


以上
nd-2,q,nd+1為整數值,所以可得q=ndq=(nd)1,即初步估計的結果q與正確值nd有可能存在偏差1??梢园l(fā)現,通過(guò)計算余數r=nqd(Or2d)是比較容易的。下面的代碼糾正了這個(gè)結果:

r=n--q*d;*初步估計結果余數r的范圍為Or2d*

if(r>=d){*若需要校正*

r-=d;/*校正r,使Ord為正確余數范圍*

n++;*相應商加1進(jìn)行校正*

} *得正確結果q=ndr=nd*


下面給出一個(gè)實(shí)例,用上面的算法完成了
N個(gè)元素的數組被d除。首先,計算上面所說(shuō)的s值,然后用乘以5來(lái)代替每個(gè)被d除的除法。64位的乘是很容易實(shí)現的,因為ARM中有一條指令UMULL,可以進(jìn)行2個(gè)32位數相乘,給出一個(gè)64位的結果。

void scale(

unsigned int*dest; *目的數據*

unsigned int*src; *源數據*

unsignedInt d; *分母d*

urlslglaedInt N;) *數據長(cháng)度*

{

unsigned int s=0xFFFFFFFFud;

do{

unsigned int n,q,r;

n=*(src++);

q=(urtslgrted int)(((unsined tong long)n*s)>>32);

r=n*d;

if(r>=d){ *若需要對商進(jìn)行校正*

q++;

}

*(dest++)=q;

}while(一一N);

}


這里假定除數和被除數都是
32位的無(wú)符號整數。當然,使用32位乘法進(jìn)行16位的無(wú)符號數計算,或者使用1 28位乘法進(jìn)行64位數計算,運算規則是一樣的??梢詾樘囟ǖ臄祿x擇最窄的運算寬度。如果數據是16位的,那么就設置s=(2161)/d,然后用標準的整型乘法來(lái)求值q。

 

4

在嵌入式軟件編程中,為了節省CPU運行時(shí)間,應盡可能避免使用除法。對環(huán)形緩沖區的處理可以不用除法。如果不能避免除法運算,那么應盡可能使用除法程序同時(shí)產(chǎn)生商nd和余數nd的好處。對于重復對一除數d的除法.預先計算好s=(2k1)d,用乘以s2k位乘法來(lái)代替除以dk位無(wú)符號整數除法,可大大減少由于直接使用除法操作引入的指令周期數。

c++相關(guān)文章:c++教程


絕對值編碼器相關(guān)文章:絕對值編碼器原理


關(guān)鍵詞: 優(yōu)化 策略 運算 除法 ARM 基于

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>