<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > MicroBlaze在硬件加速中的應用技術(shù)

MicroBlaze在硬件加速中的應用技術(shù)

作者：時(shí)間：2017-06-05 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

MicroBlaze處理器是賽靈思(Xilinx)在嵌入式開(kāi)發(fā)套件 (EDK) 中提供的兩款32位內核之一，是實(shí)現硬件加速的靈活工具。圖1是MicroBlaze的典型設計。該內核含有一個(gè)32位乘法器，但不含浮點(diǎn)單元(FPU)、桶式移位器或專(zhuān)用硬件加速器。對Xilinx公司Spartan FPGA 器件而言，默認系統含有區域優(yōu)化的MicroBlaze(采用三級流水線(xiàn))，但大多數客戶(hù)通常在開(kāi)始時(shí)使用速度優(yōu)化版(采用五級流水線(xiàn))進(jìn)行性能評估，其優(yōu)點(diǎn)是小巧簡(jiǎn)潔，易于擴展。

Xilinx客戶(hù)針對這種處理器設計所要求的兩個(gè)實(shí)際應用案例可說(shuō)明MicroBlaze在硬件加速方面的作用。本文以 Spartan 器件為重點(diǎn)，比較 FPGA 解決方案和標準控制器內核，展現我們能夠達到的性?xún)r(jià)比。這一方法同樣適用于Virtex FPGA。

本文引用地址：http://dyxdggzs.com/article/201706/349102.htm

　　案例1：實(shí)施位反轉算法

在第一個(gè)應用示例中，假定MicroBlaze處理器的運行速度僅為50MHz。采用 Spartan-3或Spartan-6器件可輕松實(shí)現這一速度。諸如本地存儲器總線(xiàn)(指令和數據，LMB)以及處理器本機總線(xiàn)(PLB)等所有內部總線(xiàn)的運行速度均達到50MHz。為簡(jiǎn)單起見(jiàn)，假定沒(méi)有連接外部DDR存儲器。

現在假設客戶(hù)想要在這個(gè)CPU上實(shí)施位反轉算法。MicroBlaze自身沒(méi)有通過(guò)硬件直接提供這個(gè)功能。再假定每秒需要完成2萬(wàn)次位反轉操作。

要解決這個(gè)問(wèn)題，大多數客戶(hù)首先會(huì )采用純軟件方案，因為這樣可輕松地實(shí)現想要的功能。而且如果性能足夠高，無(wú)需進(jìn)行任何修改。

為此，讓我們先從簡(jiǎn)單的軟件算法出發(fā)，實(shí)施簡(jiǎn)短精悍的解決方案。結果確實(shí)簡(jiǎn)單、精巧而且容易理解，不過(guò)效率很低。

unsigned int v=value;
unsigned int r = v;
int s = sizeof(v) * CHAR_BIT - 1;
for (v >>= 1; v; v >>= 1)
{
r = 1;
r |= v 1;
s--;
}
r = s;
return r;
這段程序運行相當順利，不過(guò)就算在專(zhuān)門(mén)針對速度優(yōu)化的MicroBlaze(使用五級流水線(xiàn))上運行處理一個(gè)32 位字的算法，也用了220個(gè)周期。要執行2萬(wàn)次位反轉操作，在速度為50MHz的MicroBlaze上約需88ms。

客戶(hù)試圖采用略有不同的方法來(lái)優(yōu)化算法，但仍作為純軟件解決方案來(lái)實(shí)施。

要進(jìn)一步提升性能，就要采用純硬件解決方案，通過(guò)一種新的方式來(lái)讓硬件加速器充分發(fā)揮性能。
為了加速這種基礎操作，只需要在MicroBlaze快速單工鏈路(FSL)上連接一個(gè)非常簡(jiǎn)單的內核。標準FSL實(shí)施方案使用FSL總線(xiàn)(包括同步或異步FIFO)將數據從 MicroBlaze內核傳輸到FSL 硬件加速器IP核。帶FIFO 的FSL總線(xiàn)與FIFO可對上述兩者間的數據存取進(jìn)行去耦。

如果采用帶FIFO的標準FSL總線(xiàn)，則一般情況下執行時(shí)間為4個(gè)周期：一個(gè)周期用來(lái)將MicroBlaze上的數據通過(guò)FSL寫(xiě)入FIFO;一個(gè)周期用來(lái)將數據從FIFO 傳輸到FSL IP;一個(gè)周期用來(lái)把結果從FSL IP傳送回 FSL總線(xiàn)的FIFO中;最后一個(gè)周期則負責從FSL總線(xiàn)讀出結果并傳輸至 MicroBlaze。

MicroBlaze到FSL總線(xiàn)的連接以及FSL總線(xiàn)到FSL IP的連接可在EDK的圖形視圖中輕松創(chuàng )建。
這樣代碼要長(cháng)得多，效率也有大幅度提升，但時(shí)間還是太長(cháng)了，執行2萬(wàn)次操作現在仍然大概需要52ms。
隨后客戶(hù)在互聯(lián)網(wǎng)上進(jìn)行了一些調查，找到一種更好的算法，把代碼改編為：
unsigned x = value;
unsigned r;
x = (((x 0xaaaaaaaa) >> 1) | ((x
0x55555555) 1));
x = (((x 0xcccccccc) >> 2) | ((x
0x33333333) 2));
x = (((x 0xf0f0f0f0) >> 4) | ((x
0x0f0f0f0f) 4));
x = (((x 0xff00ff00) >> 8) | ((x
0x00ff00ff) 8));
r = ((x >> 16) | (x 16));
return r;
這個(gè)代碼看起來(lái)效率高，短小精悍。而且它不需要會(huì )造成流水線(xiàn)中斷的分支。它在這個(gè)核心系統上運行只需29 個(gè)周期。

不過(guò)這個(gè)算法需要在1 、2、4、8和16位之間進(jìn)行移位操作。我們在MicroBlaze的屬性窗口中激活桶式移位器。不管移位操作的長(cháng)度如何，采用桶式移位器可允許我們在一個(gè)周期內完成移位指令。這樣可以讓純軟件算法在 MicroBlaze上運行得稍快一些。

激活MicroBlaze硬件上的桶式移位器可將處理算法所需時(shí)間縮短到22個(gè)周期。與第一個(gè)版本的軟件算法相比，此算法得到了顯著(zhù)改善。目前采用此算法，執行所有 2萬(wàn)次操作只需8.8ms，效率提升了10倍，不過(guò)仍未達到客戶(hù)要求。

不過(guò)效率還有提升的空間。算法中的時(shí)延非常關(guān)鍵，應盡可能地縮短。但在我們的實(shí)施方案中，采用兩根FSL總線(xiàn)仍需要四個(gè)時(shí)鐘周期。不過(guò)我們可以通過(guò)將 MicroBlaze與硬件加速器之間的現有連接方式改為直接連接，便可將時(shí)延減半，縮短至兩個(gè)時(shí)鐘周期。這樣一個(gè)周期用于將數據寫(xiě)入 FSL硬件加速器IP，而另一個(gè)周期則負責讀回結果。

在采用直接連接方式時(shí)，需注意幾個(gè)問(wèn)題。首先，協(xié)處理器IP應存儲輸入，并以寄存方式提供結果。請注意在執行此操作時(shí)沒(méi)有使用帶FIFO的FSL總線(xiàn)。

此外，以不同時(shí)鐘速率運行 MicroBlaze和FSL硬件加速器IP 容易發(fā)生問(wèn)題。為避免發(fā)生沖突，設計人員最好將MicroBlaze和 FSL硬件加速器IP的運行速率設為一致。

不過(guò)，如何在不使用FSL總線(xiàn)的情況下將MicroBlaze和FSL硬件加速器IP直接連接起來(lái)呢?這很簡(jiǎn)單，只需將MicroBlaze和硬件加速器的數據線(xiàn)連接起來(lái)即可。如果需要，可再添加握手信號。

例如，使用位反轉IP，只需一個(gè)寫(xiě)入信號即可。IP會(huì )一直很快運行，足以對MicroBlaze的任何請求做出及時(shí)響應。

IP本身非常簡(jiǎn)單。以下是摘錄 VHDL 代碼中的一段：
architecture behavioral of
fsl_bitrev is
-- data value sent by microblaze:
signal data_value :
std_logic_vector(0 to 31) := (others=>'0');
begin
-- bitreversed value to write back:
FSL_M_Data = data_value;
process(FSL_Clk)
begin
if rising_edge(FSL_CLK) then
if (FSL_S_Exists = '1') then
-- create the bitreversed data:
data_value(0) = FSL_S_Data(31);
data_value(1) = FSL_S_Data(30);
data_value(2) = FSL_S_Data(29);
...
data_value(30) = FSL_S_Data(1);
data_value(31) = FSL_S_Data(0);
end if;
end if;
end process;
end architecture behavioral;

如果在兩者之間沒(méi)有使用 FSL總線(xiàn)的情況下添加這個(gè)IP，您必須對項目的MHS文件進(jìn)行如下修改：
BEGIN microblaze
...
PARAMETER C_FSL_LINKS = 1
...
PORT FSL0_S_EXISTS = net_vcc
PORT FSL0_S_DATA = FSL0_S_DATA
PORT FSL0_M_DATA = FSL0_M_DATA
PORT FSL0_M_WRITE = FSL0_M_EXISTS
PORT FSL0_M_Full = net_gnd
END
BEGIN fsl_bitrev
PARAMETER INSTANCE = fsl_bitrev_0
PARAMETER HW_VER = 1.00.a
PORT FSL_S_DATA = FSL0_M_DATA
PORT FSL_S_EXISTS = FSL0_M_EXISTS
PORT FSL_M_Data = FSL0_S_DATA
PORT FSL_M_Full = net_gnd
PORT FSL_Clk = clk_50_0000MHz
END

現在效率顯著(zhù)提高。硬核僅在兩個(gè)周期內可完成位反轉操作：一個(gè)周期用于把數據寫(xiě)入IP，另一個(gè)周期則負責讀回結果。處理2萬(wàn)個(gè)位反轉操作現在只需0.8ms。

與最初采用的算法相比，效率提升了110倍。與效率最高的最新軟件算法相比，此算法仍使系統性能提升了11倍。

當然，本例只有在您的CPU不提供位反轉尋址功能的情況下才有效。大多數 DSP都有此功能，但大多數微控制器都不具備這個(gè)功能。具備增加這個(gè)功能的特性可大幅度提升這種算法的處理速度。

雖然修改不大，但收效十分明顯。我們甚至將代碼壓縮到兩個(gè)字大小。當然，現在硬件要求增加一些芯片。不過(guò)以此為代價(jià)獲得比任何標準微控制器更高的速度，是值得的。

　案例2：高速浮點(diǎn)性能

現在我們給出另一個(gè) MicroBlaze算法加速示例。一個(gè)客戶(hù)聲稱(chēng)他的浮點(diǎn)處理在MicroBlaze系統上運行非常慢。他使用的算法可采用簡(jiǎn)單的環(huán)路同時(shí)得出幾個(gè)結果。

for (i=0;i512;i++) {
f_sum += farr[i];
f_sum_prod += farr[i] * farr[i];
f_sum_tprod += farr[i] *
farr[i] * farr[i];
f_sqrt + =
sqrt(farr[i]);
if (min_f > farr[i]) { min_f =
farr[i]; }
if (max_f farr[i]) { max_f =
farr[i]; }
}

所有數值均是單精度浮點(diǎn)值。我們首先想到的是最基礎的一個(gè)問(wèn)題：浮點(diǎn)單元 (FPU) 激活了嗎?檢查項目設置后，我們發(fā)現FPU仍然處于未啟用狀態(tài)。這就是為什么永遠無(wú)法計算出這幾個(gè)數的原因。FPU可在 MicroBlaze屬性設置中加以激活。

FPU支持共有兩種。我們也選擇擴展FPU (Extended FPU)來(lái)支持求平方根運算?，F在，在50MHz 的MicroBlaze上需要 1,108,685個(gè)周期才能完成 512個(gè)值的全部循環(huán)。查看生成的匯編程序代碼后，可以了解到創(chuàng )建平方根是仍然在使用數學(xué)庫(Math-lib)功能。其在數學(xué)功能中的定義為：

double sqrt(double);

不過(guò)客戶(hù)使用平方根函數僅為處理浮點(diǎn)數值。因此，MicroBlaze FPU定義了一個(gè)新的函數來(lái)取代原來(lái)的函數，解決這個(gè)問(wèn)題：

float sqrtf(float);

把表達式f_sqrt += sqrt(farr[i])變?yōu)閒_sqrt += sqrtf(farr[i])，就會(huì )調用MicroBlaze內部的FPU內部平方根功能?，F在執行代碼只需要35,336個(gè)周期。特別是與第一個(gè)根本沒(méi)有使用FPU的方案相比，我們再次通過(guò)小小的調整就實(shí)現了31倍的提升。在相同的執行時(shí)間內，可能需要大約1.5GHz的CPU才能給出上述這些結果。

不過(guò)客戶(hù)仍不滿(mǎn)意，客戶(hù)要求更高的速度。在這種情況下，把算法從浮點(diǎn)運算變?yōu)楣厅c(diǎn)運算并不適合。因此，我們開(kāi)發(fā)了一款新型專(zhuān)用硬件加速器(新型FSL IP)來(lái)加快對循環(huán)的處理。

新的FSL IP使用CORE Generator模塊浮點(diǎn)_v4_0來(lái)為4x ADD、2x MUL、1x GREATER、1x LESS和1x SQRT等操作創(chuàng )建9個(gè)示例。所有這些示例都可以實(shí)體化，并對相同的輸入數據進(jìn)行完全并行處理(圖2)。
FSL IP中實(shí)例的創(chuàng )建帶有部分時(shí)延，但吞吐率僅為1。這要求為加速器內部的控制器硬件準備更多的芯片，不過(guò)這樣可以在每個(gè)時(shí)鐘周期內向協(xié)處理器提供新數據。

在取回結果前，只有在處理循環(huán)末端才需要增加周期。

我們采用直連方式把MicroBlaze連接到FSP IP時(shí)不需要FIFO。傳輸的所有數據都將緩存在IP內，并隨即加以處理。

從FSL IP返回到MicroBlaze的連接是使用FSL總線(xiàn)創(chuàng )建的。由于我們必須發(fā)回一些結果，因而這更加容易實(shí)現，而且可以更加簡(jiǎn)單地在IP內完成。部分CoreGen模塊有一些已被添加到執行時(shí)間中的時(shí)延，并被getfsl()調用完全覆蓋。MicroBlaze只需要等到所有結果都存入FSL總線(xiàn)FIFO。不過(guò)，只要數據率是1，即可完全實(shí)現所要求的吞吐率。

FSL總線(xiàn)的額外延遲僅會(huì )占用為數不多的一些周期。使用FSL硬件加速器的C代碼如下：for (i=0;i512;i++) {
putfsl(farr[i],fsl0_id);
}
// get the min,max values:
getfsl(min_f,fsl0_id);
getfsl(max_f,fsl0_id);
// get the sum and products:
getfsl(f_sum,fsl0_id);
getfsl(f_sum_prod,fsl0_id);
getfsl(f_sum_tprod,fsl0_id);
getfsl(f_sqrt,fsl0_id);
算法的最終實(shí)施僅需大約4,630個(gè)周期，而且依然是全浮點(diǎn)實(shí)施。

硬件需要本來(lái)應該用于實(shí)施硬件加速器的更多芯片才能并行計算出所有結果。不過(guò)與擴展FPU實(shí)施方案相比，我們最終提升了大約7.6倍。否則，如果使用標準處理器來(lái)替換這個(gè)50MHz的處理器，可能需要大約380MHz的CPU才能勝任(假設硬件自帶有浮點(diǎn)平方根函數)。

更為顯著(zhù)的是與使用PFU的最初方案，而非平方根函數的對比效果：總體提升了大約239倍。這種效果可能需要12GHz左右的浮點(diǎn)處理器才能實(shí)現。

如上述例子所示，有時(shí)候小小的調整就會(huì )顯著(zhù)影響算法的處理效果。實(shí)施這些調整，可以讓您的50MHz MicroBlaze系統與高性能DSP相媲美。

首先，找出執行時(shí)間過(guò)長(cháng)的核心算法，然后對其加速——通過(guò)簡(jiǎn)單調整軟件，使用硬件，或使用硬件加速器進(jìn)行更為復雜的調整。如此一來(lái)，您的處理器系統會(huì )強于標準控制器。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： MicroBlaze 硬件加速 浮點(diǎn)性能

評論

相關(guān)推薦

賽靈思升級MicroBlaze軟核處理器鐘頻至200MHz

sanhey | 2005-10-22

輔助駕駛：汽車(chē)離道報警完整結構設計

設計方案安全輔助駕駛 MicroBlaze FPGA | 2015-06-24

xilinx microblaze

giantbull | 2004-02-03

有人在FPGA（MicroBlaze/NiosII）上嵌入uCLinux嗎

fengtao23 | 2005-05-23

在軟件無(wú)線(xiàn)電調制解調器功能中使用硬件加速單元

資源下載軟件無(wú)線(xiàn)電調制解調器硬件加速 | 2007-04-19

MicroBlaze在硬件加速中的應用技術(shù)

嵌入式系統 MicroBlaze 硬件加速浮點(diǎn)性能 | 2017-06-05

雙MicroBlaze軟核處理器的SOPC系統設計

設計方案 MicroBlaze 軟核處理器 SOPC | 2015-06-18

全新EDK8.1簡(jiǎn)化嵌入式設計

嵌入式系統 Xilinx PlatformStudio EDK IDE PowerPC FPGA OPB PLB MicroBlaze | 2017-06-04

基于嵌入式SoPC的以太網(wǎng)接口設備

資源下載 Xilinx MicroBlaze 嵌入式SoPC 以太網(wǎng)接口設備 | 2007-02-28

Nexys3學(xué)習手記7：MicroBlaze小試牛刀

嵌入式系統 Nexys3 MicroBlaze | 2017-10-13

一篇microblaze入門(mén)文章

Jason_Zhang | 2009-12-07

符合ISO/IEC18000-6C標準的RFID讀寫(xiě)器數字基帶系統設計

嵌入式系統 RFID 讀寫(xiě)器數字基帶 FPGA MicroBlaze | 2017-06-04

借助硬件加速仿真將 DFT 用于芯片設計

EDA/PCB DFT 硬件加速仿真芯片設計 | 2018-07-26

基于MicroBlaze的嵌入式串口服務(wù)器的設計實(shí)現，提供軟硬件架構、原理

設計方案 MicroBlaze 嵌入式串口服務(wù)器 Spartan-3 | 2015-06-12

基于MicroBlaze軟核的FPGA片上系統設計

資源下載 Xilinx MicroBlaze FPGA 片上系統 IP Core SOPC 軟處理器軟件無(wú)線(xiàn)電 | 2008-10-08

MicroBlaze AXI總線(xiàn)實(shí)現OLED顯示

EDA/PCB NANO2 microblaze FPGA OLED | 2016-10-18

有一起學(xué)習Microblaze的朋友嗎？

Jason_Zhang | 2009-11-27

基于MicroBlaze軟核的FPGA片上系統設計

資源下載 Xilinx公司 MicroBlaze FPGA IP CoreConnect SOPC 軟處理器軟件無(wú)線(xiàn)電 | 2009-03-15

基于Microblaze軟核FSL總線(xiàn)的門(mén)光子計數器設計與實(shí)現

嵌入式系統門(mén)光子計數器量子光學(xué)實(shí)驗 MicroBlaze | 2017-06-05

基于A(yíng)ES的網(wǎng)絡(luò )加解密系統系統硬件圖及完整源代碼

設計方案 MicroBlaze AES-128 FPGA | 2015-08-04

最新綜合分析儀暨獨立信號源系統解決方案

測試測量綜合分析儀獨立信號源 MicroBlaze Spartan3E | 2017-06-03

基于MicroBlaze軟核的FPGA片上系統設計

資源下載 MicroBlaze 軟核 FPGA 片上系統 | 2007-04-19

MicroBlaze:malloc 函數動(dòng)態(tài)分配內存溢出

嵌入式系統函數動(dòng)態(tài) MicroBlaze | 2017-10-13

基于FPGA的LCD顯示的遠程更新

設計方案 LCD MicroBlaze FPGA 遠 | 2015-08-27

基于FPGA的通用網(wǎng)絡(luò )數據采集控制器方案

嵌入式系統 MicroBlaze 采集控制器 FPGA | 2017-06-03

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>