<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > 采用硬件加速發(fā)揮MicroBlaze處理能力

采用硬件加速發(fā)揮MicroBlaze處理能力

作者:Karsten Trott博士 賽靈思(德國慕尼黑) 現場(chǎng)應用工程師 時(shí)間:2010-03-09 來(lái)源:電子產(chǎn)品世界 收藏

  不過(guò)客戶(hù)仍不滿(mǎn)意,客戶(hù)要求更高的速度。在這種情況下,把算法從浮點(diǎn)運算變?yōu)楣厅c(diǎn)運算并不適合。因此,我們開(kāi)發(fā)了一款新型專(zhuān)用器(新型FSL IP)來(lái)加快對循環(huán)的處理。

本文引用地址:http://dyxdggzs.com/article/106702.htm

  新的FSL IP使用CORE Generator模塊浮點(diǎn)_v4_0來(lái)為4x ADD、2x MUL、1x GREATER、1x LESS和1x SQRT等操作創(chuàng )建9個(gè)示例。所有這些示例都可以實(shí)體化,并對相同的輸入數據進(jìn)行完全并行處理(圖2)。

  FSL IP中實(shí)例的創(chuàng )建帶有部分時(shí)延,但吞吐率僅為1。這要求為加速器內部的控制器硬件準備更多的芯片,不過(guò)這樣可以在每個(gè)時(shí)鐘周期內向協(xié)提供新數據。

  在取回結果前,只有在處理循環(huán)末端才需要增加周期。

  我們采用直連方式把連接到FSP IP時(shí)不需要FIFO。傳輸的所有數據都將緩存在IP內,并隨即加以處理。

  從FSL IP返回到的連接是使用FSL總線(xiàn)創(chuàng )建的。由于我們必須發(fā)回一些結果,因而這更加容易實(shí)現,而且可以更加簡(jiǎn)單地在IP內完成。部分CoreGen模塊有一些已被添加到執行時(shí)間中的時(shí)延,并被getfsl()調用完全覆蓋。只需要等到所有結果都存入FSL總線(xiàn)FIFO。不過(guò),只要數據率是1,即可完全實(shí)現所要求的吞吐率。

  FSL總線(xiàn)的額外延遲僅會(huì )占用為數不多的一些周期。使用FSL器的C代碼如下:for (i=0;i<512;i++) {
putfsl(farr[i],fsl0_id);
}
// get the min,max values:
getfsl(min_f,fsl0_id);
getfsl(max_f,fsl0_id);
// get the sum and products:
getfsl(f_sum,fsl0_id);
getfsl(f_sum_prod,fsl0_id);
getfsl(f_sum_tprod,fsl0_id);
getfsl(f_sqrt,fsl0_id);

  算法的最終實(shí)施僅需大約4,630個(gè)周期,而且依然是全浮點(diǎn)實(shí)施。

  硬件需要本來(lái)應該用于實(shí)施器的更多芯片才能并行計算出所有結果。不過(guò)與擴展實(shí)施方案相比,我們最終提升了大約7.6倍。否則,如果使用標準來(lái)替換這個(gè)50MHz的,可能需要大約380MHz的CPU才能勝任(假設硬件自帶有浮點(diǎn)平方根函數)。

  更為顯著(zhù)的是與使用PFU的最初方案,而非平方根函數的對比效果:總體提升了大約239倍。這種效果可能需要12GHz左右的浮點(diǎn)處理器才能實(shí)現。



評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>