基于FPGA的快速傅立葉變換
關(guān)鍵詞:FPGA FFT
傅立葉變換是數字信號處理中的基本操作,廣泛應用于表述及分析離散時(shí)域信號領(lǐng)域。但由于其運算量與變換點(diǎn)數N的平方成正比關(guān)系,因此,在N較大時(shí),直接應用DFT算法進(jìn)行譜變換是不切合實(shí)際的。然而,快速傅立葉變換技術(shù)的出現使情況發(fā)生了根本性的變化。本文主要描述了采用FPGA來(lái)實(shí)現2k/4k/8k點(diǎn)FFT的設計方法。
1 整體結構
一般情況下,N點(diǎn)的傅立葉變換對為:
其中,WN=exp(-2 pi/N)。X(k)和x(n)都為復數。與之相對的快速傅立葉變換有很多種,如DIT(時(shí)域抽取法)、DIF(頻域抽取法)、Cooley-Tukey和Winograd等。對于2n傅立葉變換,Cooley-Tukey算法可導出DIT和DIF算法。本文運用的基本思想是Cooley-Tukey算法,即將高點(diǎn)數的傅立葉變換通過(guò)多重低點(diǎn)數傅立葉變換來(lái)實(shí)現。雖然DIT與DIF有差別,但由于它們在本質(zhì)上都是一種基于標號分解的算法,故在運算量和算法復雜性等方面完全一樣,而沒(méi)有性能上的優(yōu)劣之分,所以可以根據需要任取其中一種,本文主要以DIT方法為對象來(lái)討論。
N=8192點(diǎn)DFT的運算表達式為:
式中,m=(4n1+n2)(2048k1+k2)(n=4n1+n2,k=2048k1+k2)其中n1和k2可?。?1,...,2047,k1和n2可?。?1,2,3。
由式(3)可知,8k傅立葉變換可由42k的傅立葉變換構成。同理,4k傅立葉變換可由22k的傅立葉變換構成。而2k傅立葉變換可由12816的傅立葉變換構成。128的傅立葉變換可進(jìn)一步由168的傅立葉變換構成,歸根結底,整個(gè)傅立葉變換可由基2、基4的傅立葉變換構成。2k的FFT可以通過(guò)5個(gè)基4和1個(gè)基2變換來(lái)實(shí)現;4k的FFT變換可通過(guò)6個(gè)基4變換來(lái)實(shí)現;8k的FFT可以通過(guò)6個(gè)基4和1個(gè)基2變換來(lái)實(shí)現。也就是說(shuō):FFT的基本結構可由基2/4模塊、復數乘法器、存儲單元和存儲器控制模塊構成,其整體結構如圖1所示。
圖1中,RAM用來(lái)存儲輸入數據、運算過(guò)程中的中間結果以及運算完成后的數據,ROM用來(lái)存儲旋轉因子表。蝶形運算單元即為基2/4模塊,控制模塊可用于產(chǎn)生控制時(shí)序及地址信號,以控制中間運算過(guò)程及最后輸出結果。
2 蝶形運算器的實(shí)現
基4和基2的信號流如圖2所示。圖中,若A=r0+j*i0,B=r1+j*i1,C=r2+j*i2,D=r3+j*i3是要進(jìn)行變換的信號,Wk0=c0+j*s0=1,Wk1=c1+j*s1,Wk2=c2+j*s2,Wk3=c3+j*s3為旋轉因子,將其分別代入圖2中的基4蝶形運算單元,則有:
A′=[r0+(r1c1-i1s1)+(r2c2-i2s2)+(r3c3-i3s3)]+j[i0+(i1c1+r1s1)+(i2c2+r2s2)+(i3c3+r3s3)]? ?。ǎ矗?/P>
B′=[r0+(i1c1+r1s1)-(r2c2-i2s2)-(i3c3+r3s3)]+j[i0-(r1c1-i1s1)-(i2c2+r2s2)+(r3c3-i3s3)] (5)
C′=[r0-(r1c1-i1s1)+(r2c2-i2s2)-(r3c3-i3s3)]+j[i0-(i1c1+r1s1)+(i2c2+r2s2)-(i3c3+r3s3)] (6)
D′=[r0-(i1c1+r1s1)-(r2c2-i2s2)+(i3c3+r3s3)]+j[i0+(r1c1-i1s1)-(i2c2+r2s2)-(r3c3-i3s3)]? (7)
而在基2蝶形中,Wk0和Wk2的值均為1,這樣,將A,B,C和D的表達式代入圖2中的基2運算的四個(gè)等式中,則有:
A′=r0+(r1c1-i1s1)+j[i0+(i1c1+r1s1)]? (8)
B′=r0- (r1c1-i1s1)+j[i0-(i1c1+r1s1)] ?。ǎ梗?/P>
C′=r2+(r3c3-i3s3)+j[i0+(i3c3+r3s3)]? (10)
D′=r2-(r3c3-i3s3)+j[i0-(i3c3+r3s3)]? (11)
在上述式(4)~(11)中有很多類(lèi)同項,如i1c1+r1s1和r1c1-i1s1等,它們僅僅是加減號的不同,其結構和運算均類(lèi)似,這就為簡(jiǎn)化電路提供了可能。同時(shí),在蝶形運算中,復數乘法可以由實(shí)數乘法以一定的格式來(lái)表示,這也為設計復數乘法器提供了一種實(shí)現的途徑。
以基4為例,在其運算單元中,實(shí)際上只需做三個(gè)復數乘法運算,即只須計算BWk1、CWk2和DWk3的值即可,這樣在一個(gè)基4蝶形單元里面,最多只需要3個(gè)復數乘法器就可以了。在實(shí)際過(guò)程中,在不提高時(shí)鐘頻率下,只要將時(shí)序控制好?便可利用流水線(xiàn)(Pipeline)技術(shù)并只用一個(gè)復數乘法器就可完成這三個(gè)復數乘法,大大節省了硬件資源。
圖2 基2和基4蝶形算法的信號流圖
3?。疲疲缘牡刂?/B>
FFT變換后輸出的結果通常為一特定的倒序,因此,幾級變換后對地址的控制必須準確無(wú)誤。
倒序的規律是和分解的方式密切相關(guān)的,以基8為例,其基本倒序規則如下:
基8可以用222三級基2變換來(lái)表示,則其輸入順序則可用二進(jìn)制序列(n1 n2 n3)來(lái)表示,變換結束后,其順序將變?yōu)椋ǎ睿?n2 n1),如:X?011?→ x?110?,即輸入順序為3,輸出時(shí)順序變?yōu)椋丁?/P>
更進(jìn)一步,對于基16的變換,可由2222,44,422等形式來(lái)構成,相對于不同的分解形式,往往會(huì )有不同的倒序方式。以44為例,其輸入順序可以用二進(jìn)制序列(n1 n2 n3 n4)來(lái)表示變換結束后,其順序可變?yōu)椋ǎǎ睿?n4)(n1 n2)),如: X?0111?→ x?1101?。即輸入順序為7,輸出時(shí)順序變?yōu)椋保场?/P>
在2k/4k/8k的傅立葉變換中,由于要經(jīng)過(guò)多次的基4和基2運算,因此,從每次運算完成后到進(jìn)入下一次運算前,應對運算的結果進(jìn)行倒序,以保證運算的正確性。
4 旋轉因子
N點(diǎn)傅立葉變換的旋轉因子有著(zhù)明顯的周期性和對稱(chēng)性。其周期性表現為:
FFT之所以可使運算效率得到提高,就是利用
FFT之所以可使運算效率得到提高,就是利用了對稱(chēng)性和周期性把長(cháng)序列的DFT逐級分解成幾個(gè)序列的DFT,并最終以短點(diǎn)數變換來(lái)實(shí)現長(cháng)點(diǎn)數變換。
根據旋轉因子的對稱(chēng)性和周期性,在利用ROM存儲旋轉因子時(shí),可以只存儲旋轉因子表的一部分,而在讀出時(shí)增加讀出地址及符號的控制,這樣可以正確實(shí)現FFT。因此,充分利用旋轉因子的性質(zhì),可節?。罚埃ヒ陨洗鎯卧?。
實(shí)際上,由于旋轉因子可分解為正、余弦函數的組合,故ROM中存的值為正、余弦函數值的組合。對2k/4k/8k的傅立葉變換來(lái)說(shuō),只是對一個(gè)周期進(jìn)行不同的分割。由于8k變換的旋轉因子包括了2k/4k的所有因子,因此,實(shí)現時(shí)只要對讀ROM的地址進(jìn)行控制,即可實(shí)現2k/4k/8k變換的通用。
5 存儲器的控制
因FFT是為時(shí)序電路而設計的,因此,控制信號要包括時(shí)序的控制信號及存儲器的讀寫(xiě)地址,并產(chǎn)生各種輔助的指示信號。同時(shí)在計算模塊的內部,為保證高速,所有的乘法器都須始終保持較高的利用率。這意味著(zhù)在每一個(gè)時(shí)鐘來(lái)臨時(shí)都要向這些單元輸入新的操作數,而這一切都需要控制信號的緊密配合。
為了實(shí)現FFT的流形運算,在運算的同時(shí),存儲器也要接收數據。這可以采用乒乓RAM的方法來(lái)完成。這種方式?jīng)Q定了實(shí)現FFT運算的最大時(shí)間。對于4k操作,其接收時(shí)間為4096個(gè)數據周期,這樣?FFT的最大運算時(shí)間就是4096個(gè)數據周期。另外,由于輸入數據是以一定的時(shí)鐘為周期依次輸入的,故在進(jìn)行內部運算時(shí),可以用較高的內部時(shí)鐘進(jìn)行運算,然后再存入RAM依次輸出。
為節省資源,可對存儲數據RAM采用原址讀出原址寫(xiě)入的方法,即在進(jìn)行下一級變換的同時(shí),首先應將結果回寫(xiě)到讀出數據的RAM存貯器中;而對于ROM,則應采用與運算的數據相對應的方法來(lái)讀出存儲器中旋轉因子的值。
在2k/4k/8k傅立葉變換中,要實(shí)現通用性,控制器是最主要的模塊。2k、4k、8k變換具有不同的內部運算時(shí)間和存儲器地址,在設計中,針對不同的點(diǎn)數應設計不同的存儲器存取地址,同時(shí),在完成變換后,還要對開(kāi)始輸出有用信號的時(shí)刻進(jìn)行指示。
6 硬件的選擇
本設計的硬件實(shí)現選用的是現場(chǎng)可編程門(mén)陣列(FPGA)來(lái)滿(mǎn)足較高速度的需要。本系統在設計時(shí)選用的是ALTERA公司的STRATIX芯片,該芯片中包含有DSP單元,可以完成較為耗費資源的乘法器單元。同時(shí),該器件也包含有大量存儲單元,從而可保證旋轉因子的精度。
除了一些專(zhuān)用引腳外,FPGA上幾乎所有的引腳均可供用戶(hù)使用,這使得FPGA信號處理方案具有非常好的I/O帶寬。大量的I/O引腳和多塊存儲器可使設計獲得優(yōu)越的并行處理性能。其獨立的存儲塊可作為輸入/工作存儲區和結果的緩存區,這使得I/O可與FFT計算同時(shí)進(jìn)行。在實(shí)現的時(shí)間方面,該設計能在4096個(gè)時(shí)鐘周期內完成一個(gè)4096點(diǎn)的FFT。若采用10MHz的輸入時(shí)鐘,其變換時(shí)間在200μs左右。而由于最新的FPGA使用了MultiTrack互連技術(shù),故可在250MHz以下頻率穩定地工作,同時(shí),FFT的實(shí)現時(shí)間也可以大大縮小。
FFT運算結果的精度與輸入數據的位數及運算過(guò)程中的位數有關(guān),同時(shí)和數據的表示形式也有很大關(guān)系。一般來(lái)說(shuō),浮點(diǎn)方式比定點(diǎn)方式精度高。而在定點(diǎn)計算中,存儲器數據的位數越大,運算精度越高,使用的存儲單元和邏輯單元也越多。在實(shí)際應用中,應根據實(shí)際情況折衷選擇精度和資源。本設計通過(guò)MATLAB進(jìn)行仿真證明:其實(shí)現的變換結果與MATLAB工具箱中的FFT函數相比,信噪比可以達到65db以上,完全可以滿(mǎn)足一般工程的實(shí)際應用要求。
評論