<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > EDA/PCB > 設計應用 > 基于A(yíng)ltera浮點(diǎn)IP核實(shí)現浮點(diǎn)矩陣相乘運算的改進(jìn)設

基于A(yíng)ltera浮點(diǎn)IP核實(shí)現浮點(diǎn)矩陣相乘運算的改進(jìn)設

作者：時(shí)間：2013-04-11 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

嵌入式計算作為新一代計算系統的高效運行方式，應用于多個(gè)高性能領(lǐng)域，如陣列信號處理、核武器模擬、計算流體動(dòng)力學(xué)等。在這些科學(xué)計算中，需要大量的浮點(diǎn)矩陣運算。而目前已實(shí)現的浮點(diǎn)矩陣運算是直接使用VHDL語(yǔ)言編寫(xiě)的浮點(diǎn)矩陣相乘處理單元[1]，其關(guān)鍵技術(shù)是乘累加單元的設計，這樣設計的硬件，其性能依賴(lài)于設計者的編程水平。此外，FPGA廠(chǎng)商也推出了一定規模的浮點(diǎn)矩陣運算IP核[2]，雖然此IP核應用了本廠(chǎng)家的器件，并經(jīng)過(guò)專(zhuān)業(yè)調試和硬件實(shí)測，性能穩定且優(yōu)于手寫(xiě)代碼，但仍可對其進(jìn)行改進(jìn)，以進(jìn)一步提高運算速度。

本文引用地址：http://dyxdggzs.com/article/189645.htm

1 Altera浮點(diǎn)矩陣相乘IP核原理

Altera公司推出的浮點(diǎn)矩陣相乘IP核ALTFP_MATRIX_MULT，是在Quartus軟件9.1版本以上的環(huán)境中使用，能夠進(jìn)行一定規模的浮點(diǎn)矩陣相乘運算，包含A、B矩陣數據輸入，數據浮點(diǎn)乘加，數據緩存及相加輸出四大部分。其中最能體現浮點(diǎn)計算性能的是浮點(diǎn)乘加部分，而周?chē)目刂齐娐芳拜敵鰟t影響到系統的最高時(shí)鐘頻率，間接地影響系統整體性能。

整個(gè)矩陣相乘電路原理是將輸入的單路數據(A、B矩陣共用數據線(xiàn))，通過(guò)控制器產(chǎn)生A、B矩陣地址信號，控制著(zhù)A矩陣數據輸出和B矩陣數據輸出，并將數據并行分段輸出到浮點(diǎn)乘加模塊進(jìn)行乘加運算，之后串行輸出到一個(gè)緩存器模塊中，再以并行方式輸出到浮點(diǎn)相加模塊，最后獲得計算結果。從其原理可以看出，在數據輸入輸出方面仍有許多可改進(jìn)的地方。

2 IP核存在的缺陷及改進(jìn)

2.1 存在缺陷

(1)輸入數據帶寬的不均衡性。在矩陣A、B的數據輸入時(shí)，Altera的IP核將A矩陣數據存于M144K的Block RAM中，而將B矩陣數據存于M9K的Block RAM中，導致IP核中A矩陣數據的帶寬小于B矩陣數據的帶寬，并需要一定數量的寄存器組使A矩陣數據帶寬能夠匹配于B矩陣數據帶寬。由此可見(jiàn)，A、B矩陣數據的存儲受到器件限制和存儲約束，同時(shí)由于在浮點(diǎn)乘加模塊的輸入端(A、B矩陣數據)帶寬不同，造成A矩陣數據的輸入需要額外的處理時(shí)間。

(2)加載數據的不連貫性。在矩陣數據加載時(shí)，IP核通過(guò)將數據分段成等分的幾部分，用于向量相乘。由于矩陣A存儲帶寬窄需要4步寄存(由Blocks決定)，在第3個(gè)周期時(shí)才加載數據B用于計算，送到一個(gè)FIFO中存儲;在第6個(gè)時(shí)鐘周期時(shí)加載矩陣A分段的第二部分進(jìn)行各自的第二部分計算，最后當計算到第15個(gè)周期時(shí)，才可通過(guò)浮點(diǎn)相加，計算出矩陣C的第一個(gè)值，之后計算出矩陣C的其他值C11。從上述結構可見(jiàn)，在分段相乘之后，采用先對一個(gè)FIFO進(jìn)行存儲，存滿(mǎn)后再對下一個(gè)數據FIFO進(jìn)行存儲，造成時(shí)間上浪費過(guò)多。

2.2 設計改進(jìn)

鑒于上述缺陷，在輸入A、B矩陣的存儲方式上，進(jìn)行串行輸入到并行輸入的改進(jìn)，使得兩個(gè)矩陣能同步輸入到浮點(diǎn)乘加模塊。在數據加載方式上，將A矩陣用3個(gè)周期加載完畢，再處理相乘運算;將分段相乘結果進(jìn)行直接存儲相加，獲得C矩陣的第一個(gè)值，縮減運算時(shí)間。設計的改進(jìn)框圖如圖1所示。

基于A(yíng)ltera浮點(diǎn)IP核實(shí)現浮點(diǎn)矩陣相乘運算的改進(jìn)設計

將A、B矩陣數據加載模塊設計成同步加載的方式，即在loadaa為高電平時(shí)，對A的第一組數據進(jìn)行初始化，加載到雙口RAM模塊存儲;在loadbb為高電平時(shí)，加載B矩陣的數據，也進(jìn)行雙口RAM存儲。然后依據ROM存儲的地址信號表，在控制模塊的控制下輸出A、B矩陣地址相對應的數據，進(jìn)行浮點(diǎn)乘加運算，之后串行緩存，并行輸出到浮點(diǎn)相加模塊，進(jìn)行輸出。計算時(shí)序如圖2所示。

基于A(yíng)ltera浮點(diǎn)IP核實(shí)現浮點(diǎn)矩陣相乘運算的改進(jìn)設計

在時(shí)序上要求初始化加載A矩陣的第一行數據A1、A2、A3之后，加載B矩陣的第一列數據，當分段E1加載后立即進(jìn)行分段第一組數據相乘A1×E1。以此類(lèi)推，當加載A的第二行數據時(shí)，即可立即與B矩陣的第一列數據相乘?？傮w而言，只需要在ROM模塊中存儲一定的地址信號，即可使浮點(diǎn)乘加模塊的輸入端具有并行連貫的數據輸入，縮短了運算時(shí)間。

3 浮點(diǎn)矩陣相乘實(shí)現

3.1 模塊總體實(shí)現

按照上述改進(jìn)方案，ROM地址表在控制模塊的控制下產(chǎn)生一組地址信號控制雙口RAM組進(jìn)行并行輸出，保證了浮點(diǎn)乘加模塊計算的準確性。其中控制模塊為設計的關(guān)鍵部分，用于產(chǎn)生所有模塊的控制信號，實(shí)現同步計算。分為a_cntrl、b_cntrl、cache、outcntrl四部分控制信號以及一路計數信號用于ROM地址查詢(xún)，內部由一個(gè)狀態(tài)機和邏輯單元組成，狀態(tài)機用于產(chǎn)生矩陣A、B的read開(kāi)始、latch鎖存、地址疊加信號的轉換?？刂颇K的時(shí)序仿真如圖3所示。

圖3在全局同步信號時(shí)鐘sysclk、復位reset、使能enable的作用下，當calcmatrix信號為‘1’時(shí)，開(kāi)始計算并生成輸出控制信號。其中a_cntrl部分用于控制矩陣A數據加載模塊，主要包含地址信號readaa和鎖存信號latchaa，來(lái)一個(gè)鎖存高電平則存儲A矩陣數據readaa;b_cntrl部分則對應于矩陣B的控制，輸入B矩陣數據readbb;cache部分用于控制數據緩存部分串行輸入并行輸出，包含著(zhù)相應的讀地址信號cacherdadd、寫(xiě)地址信號cachewradd、cache選擇信號cachemesel，三者同步控制并行輸出;outcntrl部分是整個(gè)系統的輸出控制部分，在準備信號ready之后，出現outvalid高電平，表示輸出數據有效，同時(shí)完成信號done為低電平。為使矩陣A、B數據能同時(shí)加載到浮點(diǎn)乘加模塊上，需要使一個(gè)readaa值對應于readbb的columnsbb個(gè)數據。在本設計中使用的是A9×16數據與B16×8數據進(jìn)行計算，生成的outvalid有9個(gè)脈沖，每個(gè)脈沖包含8個(gè)矩陣輸出數據。

對于A(yíng)、B矩陣的數據加載，采用的是串行輸入并行輸出的控制器，由移位寄存器組成，當計數器計數到端口輸出值時(shí)(如端口并行輸出8個(gè)數則計數到8)，并行輸出數據。

浮點(diǎn)乘加模塊采用并行相乘、并行相加的方式。由于考慮到精度問(wèn)題，采用浮點(diǎn)位數轉換，將32 bit的輸入數據進(jìn)行浮點(diǎn)擴展為42 bit，再進(jìn)行乘加運算，最后再將42 bit數據轉換為32 bit數據。采用三級流水線(xiàn)的方式，進(jìn)行并行乘加運算，提高設計系統性能。

在雙口RAM組的實(shí)現上，是將一組simple dualport ram[3]并列成一個(gè)RAM組。輸入由矩陣A、B的數據信號和ROM輸出的地址信號組成;輸出就是一路矩陣A數據和一路矩陣B數據，數據深度與vectorsize等同。其中每一個(gè)RAM的深度為rowsaa×columnsbb/vectorsize，保證數據的可重用性，同時(shí)相對應的ROM中存儲的地址信號分別為：

A：1 2 1 2 3 3 1 2 3 4 4 4 1 2 3 4 5 5 5 5 1 2 3 4 5 6 6 6 6 6 ……

B：1 1 2 2 1 2 3 3 3 1 2 3 4 4 4 4 1 2 3 4 5 5 5 5 5 1 2 3 4 5 ……

以此類(lèi)推即可得到相應的地址信號查找表。

在數據緩存模塊的設計上也采用串行輸入并行輸出的方式。使用移位寄存器的方式實(shí)現，在并行浮點(diǎn)相加部分類(lèi)似于上述的并行乘加[4]計算，采用多級流水線(xiàn)并行相加的方式完成。

塵埃粒子計數器相關(guān)文章:塵埃粒子計數器原理

上一頁(yè) 1 2 下一頁(yè)

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： Altera 浮點(diǎn) IP核 點(diǎn)矩陣

評論

相關(guān)推薦

Altera推出SoPC實(shí)現的開(kāi)發(fā)套件

liujt_ic | 2002-11-27

高性能汽車(chē)和FPGA？――共同點(diǎn)比您想象得多

汽車(chē)電子 FPGA Arria 浮點(diǎn) OpenCL | 2018-08-29

altera的汽車(chē)電子的參考設計

資源下載 altera 汽車(chē)電子參考設計 | 2007-12-12

[轉帖]Altera Nios II系列內嵌處理器

xiaohua | 2004-05-20

并口ISP下載接口資料——ALTERA官方電路圖

設計方案并口下載接口資料 ALTERA 官方電路圖 | 2009-07-16

PSG獨立運作拯救的是英特爾還是FPGA

嵌入式系統英特爾 PSG FPGA Altera 賽靈思 Lattice | 2023-12-29

高速ADC與內置嵌入式串行收發(fā)器的FPGA接口

視頻 Altera FPGA ADC Linear 串行收發(fā)器 | 2009-05-19

英特爾宣布成立全新獨立運營(yíng)的FPGA公司——Altera

嵌入式系統英特爾 FPGA Altera | 2024-03-01

Altera推出配備3.0版的軟核處理器Nios處理器的產(chǎn)品

liujt_ic | 2003-03-04

用一個(gè)FPGA實(shí)現多個(gè)工業(yè)以太網(wǎng)協(xié)議

視頻 Altera FPGA | 2009-09-24

Cadence發(fā)布首款面向AI語(yǔ)音及音頻處理優(yōu)化的DSP產(chǎn)品—Tensilica HiFi 5 DSP

智能計算 HiFi 5 IP核 | 2018-11-14

用于浮點(diǎn)變換的增益可變成緩沖放大器(OPA676)

設計方案用于浮點(diǎn) 變換增益變成緩沖放大器 OPA676 | 2009-07-06

用EDA設計LED漢字滾動(dòng)顯示器

資源下載 ALTERA EDA LED LED漢字滾動(dòng)顯示器 | 2007-12-13

[轉帖]Altera公司今天正式推出Nios™ II集成開(kāi)發(fā)環(huán)境（IDE）。

xiaohua | 2004-05-21

FPGA如何同DDR3存儲器進(jìn)行接口?

視頻 Altera FPGA DDR3 | 2008-06-18

NiosII培訓教程與實(shí)驗材料

資源下載 altera Nios II 訓教程與實(shí)驗材料 | 2007-12-12

Verilog HDL設計的要點(diǎn)

資源下載 altera Verilog HDL 設計進(jìn)階 | 2007-12-12

Nios II 處理器中文小冊子（altera）

資源下載 altera Nios II 處理器中文小冊子 | 2007-12-12

FPGA工作原理與簡(jiǎn)介

嵌入式系統 FPGA Xilinx Altera | 2018-09-11

急求altera的nios開(kāi)發(fā)板with APEX20KE的板子個(gè)部分性能說(shuō)明圖

sonthy | 2004-08-06

用于浮點(diǎn)交換的增益可編程緩沖放大電路

設計方案用于浮點(diǎn) 交換增益可編程緩沖放大 | 2009-07-06

今日話(huà)題：2018年半導體領(lǐng)域最大的贏(yíng)家和失意者，你選誰(shuí)？

EDA/PCB 半導體 Altera | 2018-09-17

英特爾宣布分拆FPGA業(yè)務(wù)，目標2-3年后獨立IPO！

嵌入式系統英特爾 FPGA Altera | 2023-10-04

Altera ByteBlaster下載線(xiàn)電路圖

設計方案 Altera ByteBlaster 下載電路圖 | 2009-07-16

基于A(yíng)RM Cortex-M3的SoC系統設計

FPGA IP核 Cortex-M3 SoC 201902 | 2019-01-29

Arm中國大裁員：SoC、HPC兩團隊被裁人數最多

嵌入式系統 ARM中國芯片架構 IP核 SOC 裁員 | 2023-02-13

并口ISP下載接口資料——ALTERA簡(jiǎn)化版

設計方案并口下載接口資料 ALTERA 簡(jiǎn)化 | 2009-07-16

Altera: 采用全系列40-nm收發(fā)器FPGA和ASIC實(shí)現創(chuàng )新

視頻 Altera FPGA ASIC | 2009-07-13

5 Easy Steps to Building an Embedded Processor System Inside an FPGA

視頻 Altera FPGA | 2010-03-17

NVIDIA選用新思科技經(jīng)驗證DesignWare DDR IP核

智能計算云計算 NVIDIA 新思科技 DesignWare DDR IP核 | 2020-08-12

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>