浮點(diǎn)矩陣相乘IP核并行改進(jìn)的設計與實(shí)現
嵌入式計算作為新一代計算系統的高效運行方式,應用于多個(gè)高性能領(lǐng)域,如陣列信號處理、核武器模擬、計算流體動(dòng)力學(xué)等。在這些科學(xué)計算中,需要大量的浮點(diǎn)矩陣運算。而目前已實(shí)現的浮點(diǎn)矩陣運算是直接使用VHDL語(yǔ)言編寫(xiě)的浮點(diǎn)矩陣相乘處理單元[1],其關(guān)鍵技術(shù)是乘累加單元的設計,這樣設計的硬件,其性能依賴(lài)于設計者的編程水平。此外,FPGA廠(chǎng)商也推出了一定規模的浮點(diǎn)矩陣運算IP核[2],雖然此IP核應用了本廠(chǎng)家的器件,并經(jīng)過(guò)專(zhuān)業(yè)調試和硬件實(shí)測,性能穩定且優(yōu)于手寫(xiě)代碼,但仍可對其進(jìn)行改進(jìn),以進(jìn)一步提高運算速度。
1 Altera浮點(diǎn)矩陣相乘IP核原理
Altera公司推出的浮點(diǎn)矩陣相乘IP核ALTFP_MATRIX_MULT,是在Quartus軟件9.1版本以上的環(huán)境中使用,能夠進(jìn)行一定規模的浮點(diǎn)矩陣相乘運算,包含A、B矩陣數據輸入,數據浮點(diǎn)乘加,數據緩存及相加輸出四大部分。其中最能體現浮點(diǎn)計算性能的是浮點(diǎn)乘加部分,而周?chē)目刂齐娐芳拜敵鰟t影響到系統的最高時(shí)鐘頻率,間接地影響系統整體性能。
整個(gè)矩陣相乘電路原理是將輸入的單路數據(A、B矩陣共用數據線(xiàn)),通過(guò)控制器產(chǎn)生A、B矩陣地址信號,控制著(zhù)A矩陣數據輸出和B矩陣數據輸出,并將數據并行分段輸出到浮點(diǎn)乘加模塊進(jìn)行乘加運算,之后串行輸出到一個(gè)緩存器模塊中,再以并行方式輸出到浮點(diǎn)相加模塊,最后獲得計算結果。從其原理可以看出,在數據輸入輸出方面仍有許多可改進(jìn)的地方。
2 IP核存在的缺陷及改進(jìn)
2.1 存在缺陷
(1)輸入數據帶寬的不均衡性。在矩陣A、B的數據輸入時(shí),Altera的IP核將A矩陣數據存于M144K的Block RAM中,而將B矩陣數據存于M9K的Block RAM中,導致IP核中A矩陣數據的帶寬小于B矩陣數據的帶寬,并需要一定數量的寄存器組使A矩陣數據帶寬能夠匹配于B矩陣數據帶寬。由此可見(jiàn),A、B矩陣數據的存儲受到器件限制和存儲約束,同時(shí)由于在浮點(diǎn)乘加模塊的輸入端(A、B矩陣數據)帶寬不同,造成A矩陣數據的輸入需要額外的處理時(shí)間。
(2)加載數據的不連貫性。在矩陣數據加載時(shí),IP核通過(guò)將數據分段成等分的幾部分,用于向量相乘。由于矩陣A存儲帶寬窄需要4步寄存(由Blocks決定),在第3個(gè)周期時(shí)才加載數據B用于計算,送到一個(gè)FIFO中存儲;在第6個(gè)時(shí)鐘周期時(shí)加載矩陣A分段的第二部分進(jìn)行各自的第二部分計算,最后當計算到第15個(gè)周期時(shí),才可通過(guò)浮點(diǎn)相加,計算出矩陣C的第一個(gè)值,之后計算出矩陣C的其他值C11。從上述結構可見(jiàn),在分段相乘之后,采用先對一個(gè)FIFO進(jìn)行存儲,存滿(mǎn)后再對下一個(gè)數據FIFO進(jìn)行存儲,造成時(shí)間上浪費過(guò)多。
2.2 設計改進(jìn)
鑒于上述缺陷,在輸入A、B矩陣的存儲方式上,進(jìn)行串行輸入到并行輸入的改進(jìn),使得兩個(gè)矩陣能同步輸入到浮點(diǎn)乘加模塊。在數據加載方式上,將A矩陣用3個(gè)周期加載完畢,再處理相乘運算;將分段相乘結果進(jìn)行直接存儲相加,獲得C矩陣的第一個(gè)值,縮減運算時(shí)間。設計的改進(jìn)框圖如圖1所示。
浮點(diǎn)矩陣相乘IP核并行改進(jìn)的設計與實(shí)現.pdf
評論