<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 工控自動(dòng)化 > 設計應用 > 如何用FPGA實(shí)現算法的硬件加速

如何用FPGA實(shí)現算法的硬件加速

作者：時(shí)間：2008-04-24 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

　　當設計者試圖從算法中獲得最佳性能但軟件方法已無(wú)計可施時(shí)，可以嘗試通過(guò)硬件/軟件重新劃分來(lái)進(jìn)行加速。FPGA易于實(shí)現軟件模塊和硬件模塊的相互交換，且不必改變處理器或進(jìn)行板級變動(dòng)。本文闡述如何用FPGA來(lái)實(shí)現算法的硬件加速。

　　如果想從代碼中獲得最佳性能，方法包括優(yōu)化算法、使用查找表而不是算法、將一切都轉換為本地字長(cháng)尺寸、使用注冊變量、解開(kāi)循環(huán)甚至可能采用匯編代碼。如果所有這些都不奏效，可以轉向更快的處理器、采用一個(gè)不同的處理器架構，或將代碼一分為二通過(guò)兩個(gè)處理器并行處理。不過(guò)，如果有一種方法可將那些對時(shí)間有嚴格要求的代碼段轉換為能夠以5-100倍速度運行的函數調用，而且如果這一方法是一種可供軟件開(kāi)發(fā)之用的標準工具，這可信嗎？現在，利用可編程邏輯作為硬件加速的基礎可使這一切都變成現實(shí)。

　　

　　

　　圖1：帶定制指令的可配置處理器架構。

　　低成本可編程邏輯在嵌入式系統中應用得越來(lái)越普遍，這為系統設計者提供了一個(gè)無(wú)需對處理器或架構進(jìn)行大的改動(dòng)即可獲得更高性能的可選方案?？删幊踢壿嬁蓪⒂嬎忝芗凸δ苻D換為硬件加速功能。從軟件的角度看，這只是簡(jiǎn)單地將一個(gè)函數調用做進(jìn)一個(gè)定制的硬件模塊中，但運行速度要比通過(guò)匯編語(yǔ)言?xún)?yōu)化的相同代碼或將算法轉換為查找表要快得多。

　　硬件加速

　　首先探討一下什么是硬件加速，以及將算法作為定制指令來(lái)實(shí)現與采用硬件外圍電路的區別。硬件加速是指利用硬件模塊來(lái)替代軟件算法以充分利用硬件所固有的快速特性。從軟件的角度看，與硬件加速模塊接口就跟調用一個(gè)函數一樣。唯一的區別在于此函數駐留在硬件中，對調用函數是透明的。

　　取決于算法的不同，執行時(shí)間最高可加快100倍。硬件在執行各種操作時(shí)要快得多，如執行復雜的數學(xué)功能、將數據從一個(gè)地方轉移到另一個(gè)地方，以及多次執行同樣的操縱。本文后面將討論一些通常用軟件完成的操作，經(jīng)過(guò)硬件加速后這些操作可獲得極大的性能提高。

　　如果在系統設計中采用FPGA，那么在設計周期的任何時(shí)候都可以添加定制的硬件。設計者可以立刻編寫(xiě)軟件代碼，并可在最終定稿之前在硬件部分上運行。此外，還可以采取增量法來(lái)決定哪部分代碼用硬件而不是軟件來(lái)實(shí)現。FPGA供應商所提供的開(kāi)發(fā)工具可實(shí)現硬件和軟件之間的無(wú)縫切換。這些工具可以為總線(xiàn)邏輯和中斷邏輯生成HDL代碼，并可根據系統配置定制軟件庫及include文件。

　　帶一些CISC的RISC

　　精簡(jiǎn)指令集計算(RISC)架構的目標之一即是保持指令簡(jiǎn)單化，以便讓指令運行得足夠快。這與復雜指令集計算(CISC)架構正好相反，后者一般不會(huì )同樣快地執行指令，但每個(gè)指令可完成更多處理任務(wù)。這兩種架構應用得都很普遍，而且各有所長(cháng)。

　　如果能根據特定的應用將RISC的簡(jiǎn)單和快速特性與CISC強大的處理能力結合起來(lái)，豈不兩全其美？其實(shí)這正是硬件加速所要做的。加入為某種應用而定制的硬件加速模塊可以提高處理能力，并減少代碼復雜性和密度，因為硬件模塊取代了軟件模塊?？梢赃@么說(shuō)，是用硬件來(lái)?yè)Q取速度和簡(jiǎn)單性。

　　定制指令和硬件外圍電路方式

　　有兩種硬件加速模塊實(shí)現方式。其一是定制指令，它幾乎可在每一個(gè)可配置處理器中實(shí)現，這是采用可配置處理器的主要優(yōu)點(diǎn)。如圖1所示，定制指令是作為算術(shù)邏輯單元(ALU)的擴展而添加的。處理器只知道定制指令就像其它指令一樣，包括擁有自己的操作代碼。至于C代碼，宏可自動(dòng)生成，從而使得使用該定制指令跟調用函數一樣。

　　如果定制指令需要幾個(gè)時(shí)鐘周期才能完成，而且要連續調用它，則可以流水線(xiàn)式定制指令來(lái)實(shí)現。這樣可在每個(gè)時(shí)鐘周期產(chǎn)生一個(gè)結果，不過(guò)開(kāi)始時(shí)有些延遲。

　　硬件加速模塊的另一種實(shí)現方式是硬件外圍電路。在這一方式下，數據不是傳遞給軟件函數，而是寫(xiě)入存儲器映射的硬件外圍電路中。計算是在CPU之外完成的，因此在外圍電路工作的同時(shí)CPU可以繼續運行代碼。其實(shí)代替軟件算法的只是一個(gè)普通的硬件外圍電路。與定制指令的另一個(gè)不同之處是硬件外圍電路可以訪(fǎng)問(wèn)系統中的其它外圍電路或存儲器，而無(wú)須CPU介入。

　　根據硬件需要做什么、怎么工作以及需要多長(cháng)時(shí)間可以決定采用是定制指令還是硬件外圍電路更合適。對于那些在幾個(gè)周期內就可完成的操作，定制指令一般更好些，因為它產(chǎn)生的開(kāi)銷(xiāo)要更少。對于外圍電路，一般需要執行幾個(gè)指令來(lái)寫(xiě)入控制寄存器、狀態(tài)寄存器和數據寄存器，而且需要一個(gè)指令來(lái)讀取結果。如果計算需要幾個(gè)周期，實(shí)施外圍電路比較好，因為它不會(huì )影響CPU流水線(xiàn)?；蛘?，也可以實(shí)施前面所述的流水線(xiàn)式定制指令。

　　另一個(gè)區別是定制指令需要有限數目的操作數，并返回一個(gè)結果。根據處理器指令集架構的不同，操作數也各異。對某些操縱，這樣可能顯得很麻煩。此外，如果需要硬件從存儲器或存儲器中的其它外圍電路讀出和寫(xiě)入，則必須采用硬件外圍電路，因為定制指令無(wú)法訪(fǎng)問(wèn)總線(xiàn)。

　　圖2：16位CRC算法的硬件實(shí)現。（Optional）

　　選擇代碼

　　當需要優(yōu)化C語(yǔ)言代碼以滿(mǎn)足某些速度要求時(shí)，可能要運行一個(gè)代碼仿制工具，或親自檢查該代碼以便了解代碼的哪個(gè)部分導致系統停滯。當然，這需要熟悉代碼以便知道瓶頸在哪兒。

　　即便找出瓶頸所在，如何優(yōu)化也是個(gè)挑戰。有些方案采用本地字大小的變量、帶預先計算值的查找表，以及通用軟件算法優(yōu)化。這些技巧可產(chǎn)生快幾倍的執行速度效果。另一種優(yōu)化C算法的方法是用匯編語(yǔ)言編寫(xiě)。過(guò)去這種方法可獲得很好的提高，但現今的編譯器在優(yōu)化C算法上已做得很好，因此這種性能的提高是有限的。如果需要顯著(zhù)的性能提高，傳統的軟件算法優(yōu)化技巧恐怕是不夠的。

　　然而，利用硬件實(shí)施的算法比軟件實(shí)施要強100倍，這不足為奇。那么，如何確定將哪些代碼轉為硬件實(shí)施呢？大可不必將整個(gè)軟件模塊轉換為硬件，而應選擇那些在硬件中運行得特別快的操作，比如將數據從一處復制到另一處、大量的數學(xué)運算以及任何運行多次的循環(huán)。如果一個(gè)任務(wù)由幾個(gè)數學(xué)運算組成，還可以考慮在硬件中加速整個(gè)任務(wù)。有些時(shí)候，僅加速任務(wù)中的一個(gè)操作就可滿(mǎn)足性能要求。

　　實(shí)例：CRC算法的硬件加速

　　由于大量且重復的計算，循環(huán)冗余校驗(CRC)算法或任何“校驗和”算法都是硬件加速的不錯選擇。下面通過(guò)一個(gè)CRC算法的優(yōu)化過(guò)程來(lái)探討如何實(shí)現硬件加速。

　　首先，利用傳統的軟件技巧來(lái)優(yōu)化算法，然后將其轉向定制指令以加速算法。我們將討論不同實(shí)現方法的性能比較和折衷。

　　CRC算法可用來(lái)校驗數據在傳輸過(guò)程中是否被破壞。這些算法很流行，因為它們具有很高的檢錯率，而且不會(huì )對數據吞吐量造成太大影響，因為CRC校驗位被添加進(jìn)數據信息中。但是，CRC算法比一些簡(jiǎn)單的校驗和算法有更大的計算量要求。盡管如此，檢錯率的提高使得這種算法值得去實(shí)施。

　　一般說(shuō)來(lái)，發(fā)送端對要被發(fā)送的消息執行CRC算法，并將CRC結果添加進(jìn)該消息中。消息的接收端對包括CRC結果在內的消息執行同樣的CRC操作。如果接收端的結果與發(fā)送端的不同，這說(shuō)明數據被破壞了。

　　CRC算法是一種密集的數學(xué)運算，涉及到二元模數除法(modulo-2 division)，即數據消息被16或32位多項式(取決于所用CRC標準)除所得的余數。這種操作一般通過(guò)異或和移位的迭代過(guò)程來(lái)實(shí)現，當采用16位多項式時(shí)，這相當于每數據字節要執行數百條指令。如果發(fā)送數百個(gè)字節，計算量就會(huì )高達數萬(wàn)條指令。因此，任何優(yōu)化都會(huì )大幅提高吞吐量。

　　代碼列表1中的CRC函數有兩個(gè)自變量(消息指針和消息中的字

fpga相關(guān)文章:fpga是什么

上一頁(yè) 1 2 3 下一頁(yè)

關(guān)鍵詞： 實(shí)現算法 CRC 硬件加速 FPGA 查找表 typedef const 算術(shù)邏輯單元 ALU 狀態(tài)寄存器

評論

相關(guān)推薦

AMD 推出 Spartan UltraScale+ 系列，專(zhuān)為成本敏感型邊緣應用打造

嵌入式系統 FPGA Spartan UltraScale | 2024-03-21

英特爾? 加速虛擬蜂窩基站路由器解決方案

嵌入式系統英特爾虛擬蜂窩基站路由器 FPGA SmartNIC N6000-PL | 2024-04-12

第六代Spartan FPGA迎接智能邊緣互聯(lián)新挑戰

嵌入式系統 Spartan FPGA 智能邊緣 | 2024-03-11

Altera公司cyclone系列FPGA-1C6電路圖

設計方案 Altera 公司 cyclone 系列 FPGA-1C6 | 2009-07-17

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

視頻協(xié)議板-FPGA配置基于LatticeECP3的設計

設計方案視頻協(xié)議 -FPGA 配置基于 LatticeECP3 | 2014-05-20

基于FPGA的鎖相環(huán)位同步提取電路

設計方案電子電路圖，FPGA 鎖相環(huán) | 2012-07-27

FPGA如何同DDR3存儲器進(jìn)行接口?

視頻 Altera FPGA DDR3 | 2008-06-18

LatticeECP3設計的視頻協(xié)議板電路圖-FPGA配置

設計方案 LatticeECP3 設計視頻協(xié)議電路圖 -FPGA | 2011-06-27

FPGA助力高速未來(lái)

嵌入式系統 FPGA 萊迪思 Lattice Swissloop | 2024-04-08

LabVIEW 8.20技術(shù)資料大全簡(jiǎn)介

資源下載 NI LabVIEW 射頻和通信 FPGA | 2007-12-11

實(shí)時(shí)的噪聲源定位系統

視頻 NI LabVIEW FPGA | 2009-03-25

CRC算法和c語(yǔ)言實(shí)現

資源下載 CRC 算法與C語(yǔ)言 | 2007-12-09

Achronix FPGA增加對Bluespec提供的基于Linux的RISC-V軟處理器的支持，以實(shí)現可擴展數據處理

嵌入式系統 Achronix FPGA Bluespec RISC-V 軟處理器 | 2024-04-15

LabVIEW FPGA 模塊簡(jiǎn)介

視頻 NI LabVIEW FPGA | 2009-04-01

利用英特爾Agilex FPGA 構建更具成本效益、更高效的5G無(wú)線(xiàn)電

手機與無(wú)線(xiàn)通信英特爾 Agilex FPGA 5G無(wú)線(xiàn)電 | 2024-04-12

ALTERA的PCI_IP Core問(wèn)答集

資源下載 Altera FPGA PCI_IP Core | 2007-12-13

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

3-DES算法的FPGA高速實(shí)現(Xilinx)

資源下載 Xilinx FPGA 3-DES算法 | 2007-12-13

FPGA是實(shí)現敏捷、安全的工業(yè)4.0發(fā)展的關(guān)鍵

嵌入式系統 FPGA 工業(yè)4.0 Lattice 萊迪思 | 2024-05-06

全新 Spartan UltraScale+ FPGA 系列 - 以小型封裝實(shí)現高 I/O 和低功耗

嵌入式系統 AMD UltraScale FPGA | 2024-03-21

s3c2410+fpga 做視頻無(wú)線(xiàn)傳輸

herbertwj | 2004-08-15

基于FPGA的數字信號處理--什么是定點(diǎn)數？

嵌入式系統 FPGA 數字信號定點(diǎn)數 | 2024-05-11

新型的FPGA器件將支持多樣化AI/ML創(chuàng )新進(jìn)程

嵌入式系統 FPGA AI ML Achronix | 2024-03-28

Altera的FPGA下載常見(jiàn)問(wèn)題經(jīng)驗小結

資源下載 Altera FPGA 常見(jiàn)問(wèn)題經(jīng)驗 | 2007-12-13

高速ADC與內置嵌入式串行收發(fā)器的FPGA接口

視頻 Altera FPGA ADC Linear 串行收發(fā)器 | 2009-05-19

Altera: 采用全系列40-nm收發(fā)器FPGA和ASIC實(shí)現創(chuàng )新

視頻 Altera FPGA ASIC | 2009-07-13

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

用C/C++語(yǔ)言開(kāi)發(fā)大規模FPGA [轉載于www.fpga.com.cn]

xiaohua | 2002-09-24

基于SD7502構成的FPGA-ASK電路圖

設計方案基于 SD7502 構成 FPGA-ASK 電路圖 | 2011-07-13

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>