CPU主頻比FPGA快,但為啥FPGA才可以加速?
CPU的主頻高達幾個(gè)GHz,FPGA的速率往往在幾百兆。但是,往往我們會(huì )說(shuō)FPGA會(huì )給CPU進(jìn)行加速。
本文引用地址:http://dyxdggzs.com/article/201803/377455.htm雖然CPU主頻很高,但其是通用處理器,做某個(gè)特定運算(如信號處理,圖像處理)可能需要很多個(gè)時(shí)鐘周期;而FPGA可以通過(guò)編程重組電路,直接生成專(zhuān)用電路,加上電路并行性,可能做這個(gè)特定運算只需要一個(gè)時(shí)鐘周期。
假設我們用FPGA完整的實(shí)現了CPU,然后再跑軟件的話(huà),的確比CPU慢。問(wèn)題是FPGA不會(huì )那么干,它會(huì )直指問(wèn)題本質(zhì),解決問(wèn)題。

即使我們用FPGA實(shí)現一個(gè)CPU,也是為了做一些芯片驗證或者說(shuō)需要一些需要CPU和FPGA需要緊密結合的場(chǎng)景,這種場(chǎng)景現在也逐步由SoC的FPGA實(shí)現了。

舉個(gè)具體的例子,比如有兩個(gè)數組,其中有256個(gè)32位數,我們現在要把它們對應相加變成一個(gè)數組,用CPU寫(xiě)最快大概是這樣子的:
r[0] = a[0] + b[0];
r[1] = a[1] + b[1];
...
r[255] = a[255] + b[255];
當然也可能會(huì )這么寫(xiě)(在分支預測準確,指令緩存不大的情況下可能更快):
for (int i = 0; i < 255; i++)
r[i] = a[i] + b[i];
CPU指令流水線(xiàn)
根據之前描述的基礎,指令進(jìn)入流水線(xiàn),通過(guò)流水線(xiàn)處理,從流水線(xiàn)出來(lái)的過(guò)程,對于我們程序員來(lái)說(shuō),是比較直觀(guān)的。
I486擁有五級流水線(xiàn)。分別是:取指(Fetch),譯碼(D1, main decode),轉址(D2, translate),執行(EX, execute),寫(xiě)回(WB)。某個(gè)指令可以在流水線(xiàn)的任何一級。

流水線(xiàn)的數量不可能無(wú)限制增加,流水線(xiàn)的加速也有很多風(fēng)險。即使流水線(xiàn)可以無(wú)限制增加,不管CPU的流水線(xiàn)又多少條,每個(gè)指令執行都必須順序執行。對速率的提升也是有限的。
對于上圖中的流水線(xiàn)有一個(gè)明顯的缺陷。對于下面的指令代碼,它們的功能是將兩個(gè)變量的內容進(jìn)行交換。

第二條xor指令需要第一條xor指令計算的結果a,但是直到第一條指令執行完成才會(huì )寫(xiě)回。所以流水線(xiàn)的其他指令就會(huì )在當前流水級等待直到第一條指令的執行和寫(xiě)回階段完成。第二條指令會(huì )等待第一條指令完成才能進(jìn)入流水線(xiàn)下一級,同樣第三條指令也要等待第二條指令完成。
這個(gè)現象被稱(chēng)為流水線(xiàn)阻塞或者流水線(xiàn)氣泡。
對FPGA來(lái)說(shuō),也可以用上面相同的寫(xiě)法,不同在于:
CPU是一個(gè)一個(gè)加法計算,而FPGA排好邏輯電路,在一個(gè)時(shí)鐘周期內計算完畢。就算CPU主頻比FPGA快100倍也趕不上啊。
計算機最基本的功能就是運算了,其中最基本的又要屬加法運算。我們知道計算機使用二進(jìn)制來(lái)保存和處理數據,因此這里的加減法運算都是用二進(jìn)制進(jìn)行。下面雅樂(lè )網(wǎng)總結了一些運算器中加法器的設計。
二進(jìn)制加法

一位的二進(jìn)制加法非常簡(jiǎn)單,因為只有四種情況
0+0=0 進(jìn)位0
0+1=1 進(jìn)位0
1+0=1 進(jìn)位0
1+1=0 進(jìn)位1
多位的二進(jìn)制加法 和十進(jìn)制類(lèi)似,每一位上兩個(gè)數相加后再加上進(jìn)位就可以了
FPGA半加器
半加器可以實(shí)現兩個(gè)1位的二進(jìn)制數字相加,并且輸出結果和進(jìn)位。
真值表:

一位半加器真值表
由表中可以看見(jiàn),這種加法沒(méi)有考慮低位來(lái)的進(jìn)位,所以稱(chēng)為半加。
輸出和:A和B一個(gè)為0 一個(gè)為1的時(shí)候輸出1 兩個(gè)0或兩個(gè)1輸出0 因此 可以用異或門(mén)連接。
進(jìn)位:只有AB均為1的時(shí)候進(jìn)位輸出1 進(jìn)位Cout = AB 用與門(mén)連接。

一位半加器
FPGA全加器
全加器在半加器的基礎上 增加了進(jìn)位 它輸入三個(gè)數字 兩個(gè)加數 和 一個(gè)進(jìn)位 Cin,輸出結果 和 進(jìn)位

一位全加器真值表
從真值表很容易寫(xiě)出如下邏輯表達式
S=P異或Cout 其中P=A異或B
Cout=P·Cin+G 其中G=A·B

一位全加器
四位行波加法器
將四個(gè)全加器 每一個(gè)的僅為輸出連接到下一個(gè)的進(jìn)位輸入 就可以構成一個(gè)4位串行加法器了

四位行波加法器
這樣構成的加法器連接起來(lái)很簡(jiǎn)單,但是也有不足:每一個(gè)全加器計算的時(shí)候必須等待它的進(jìn)位輸入產(chǎn)生后才能計算,所以四個(gè)全加器并不是同時(shí)進(jìn)行計算的,而是一個(gè)一個(gè)的串行計算。這樣會(huì )造成較大的延遲。
超前進(jìn)位加法器(Carry-Lookahead Adder,CLA)
超前進(jìn)位加法器的思路是提前算出每一位上的進(jìn)位。
分析每一個(gè)全加器的局部
一個(gè)全加器 A B Cn 如果有兩個(gè)或兩個(gè)以上的1 那么進(jìn)位Cn+1就是1
因此 Cn+1 = AB + ACn + BCn = AB + Cn(A+B)
記生成(Generate)信號:Gi=Ai·Bi
傳播(Propagate)信號:Pi=Ai+Bi
那么Ci+1=Gi+Pi·Ci
根據這個(gè)遞推關(guān)系,可以推導出每一位的進(jìn)位
每一位的進(jìn)位跟前一級進(jìn)位有關(guān),前一級 又跟 前一級的前一級有關(guān) 一直向前 最終是和C0相關(guān)。而最開(kāi)始的第一位C0和A0 B0都是已知的

這樣算出結果只需要經(jīng)過(guò)三個(gè)門(mén)延遲就可以了。
隨著(zhù)位數的增加,進(jìn)位的計算公式會(huì )越來(lái)越復雜。32位的進(jìn)位計算需要32與門(mén)
所以我們需要更多的計算位寬或者更大的數組,或者矩陣的運算的時(shí)候,我們使用FPGA的優(yōu)勢就體現出來(lái)。再多的計算,也就是放置更多的邏輯資源。
FPGA的并行是真并行,CPU完全沒(méi)得比。CPU如果想并行最多也就是讓多個(gè)核并行,但是對于大部分算法實(shí)現來(lái)說(shuō),如上例,多個(gè)核之間的同步調度開(kāi)銷(xiāo)遠遠大于計算開(kāi)銷(xiāo),就算多個(gè)核之間的調用開(kāi)銷(xiāo)可以做的很小,一般CPU也就那幾個(gè)核,而FPGA只要門(mén)足夠,想并行幾路就可以并行幾路。
所以在做可并行的計算密集型任務(wù)時(shí),比如信號處理,網(wǎng)絡(luò )傳輸等等FPGA可以幫上忙;但是如果做我們常見(jiàn)的串行為主的任務(wù)而言,FPGA的確遠遠比不上CPU。
FPGA是配角
使用FPGA不一定總能加速,只是在某些強計算和數據處理的方面,因為其硬件電路并行運行和有很多DSP硬核資源供調用的特點(diǎn),可以工作得更出色。FPGA本身也只是輔助角色,起控制的還是CPU本身,所以FPGA并不能代替CPU,只是在完成一件大任務(wù)的過(guò)程中將某部分任務(wù)分解給FPGA可以更好地一起完成任務(wù)。在這過(guò)程中也會(huì )有額外的開(kāi)銷(xiāo)產(chǎn)生,在某些場(chǎng)合,可能用了FPGA而效果更差也是有的。
另外,通常說(shuō)的使用FPGA加速比CPU和GPU省電,是指在完成同樣的任務(wù)下,FPGA耗費的電力比起CPU和GPU更少一些,相對而言的,并不是說(shuō)FPGA本身就一定省電。
FPGA的弱點(diǎn)
1.開(kāi)發(fā)周期長(cháng)。需要對特定的應用編寫(xiě)特定的FPGA。只要干的事情稍有不同,一般來(lái)說(shuō)FPGA代碼就要重新寫(xiě)一遍或者是至少要修改很多東西。開(kāi)發(fā)代價(jià)和碼農碼幾行代碼完全不可比。而且一般需要若干工程師花費若干周才能搞的定。重點(diǎn)是會(huì )寫(xiě)的人還不多。
2.并不是所有東西都適合FPGA。FPGA適合于做那些可并行計算的東西,例如矩陣運算。如果是一些判斷類(lèi)的問(wèn)題,FPGA算得并沒(méi)有CPU快(這個(gè)時(shí)候時(shí)鐘周期才是關(guān)鍵因素)。所以現實(shí)中都是有人來(lái)分析,在整個(gè)任務(wù)中有哪些地方可以并行計算,把這些地方替換為FPGA卡。
由于現在機器學(xué)習、大數據比較火,里面矩陣運算成千上萬(wàn),所以沒(méi)有出現定制的ASIC之前,FPGA加速還是業(yè)界主流?,F在百度、微軟、谷歌等公司都已經(jīng)把FPGA加速運用到了實(shí)際的商業(yè)運營(yíng)中。
評論