<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > 基于Xtensa LX處理器實(shí)現RRC濾波器設計

基于Xtensa LX處理器實(shí)現RRC濾波器設計

作者: 時(shí)間:2007-06-29 來(lái)源:網(wǎng)絡(luò ) 收藏

SoC復雜度不斷增加但周期卻顯著(zhù)縮短,的軟件可編程特性要求越來(lái)越明顯。作為可自由配置和靈活擴展的嵌入式微, 不但能滿(mǎn)足控制任務(wù)的要求,而且能夠完成密集計算型數據任務(wù)。該具有獨特的設計流程,含括了從處理器配置到具體硬件的完整過(guò)程。本設計針對 處理器的強大功能,利用Tensilica提供的設計技術(shù)完成對根升余弦的設計,并且對不同方法進(jìn)行比較。

當今,在通信與多媒體領(lǐng)域,SoC設計越來(lái)越復雜,設計周期越來(lái)越短,而且為了適應市場(chǎng)需求及各種應用協(xié)議標準不斷變化的要求,SoC設計必須靈活且性能優(yōu)越,這就使SoC朝著(zhù)軟件可編程化發(fā)展,保證在激烈的競爭中把產(chǎn)品迅速推向市場(chǎng),滿(mǎn)足消費者的不同需求。

圖1:Xtansa 處理器開(kāi)發(fā)流程。

然而,針對以密集計算性數據處理為目標的應用,如圖象處理、語(yǔ)音識別、包交換通信等領(lǐng)域,通用的數字信號處理器(DSP)往往缺乏足夠的靈活性來(lái)執行復雜且高帶寬要求的數據處理任務(wù),因為通用DSP有固定大小和帶寬的指令結構集和寄存器,不能針對不同的應用而靈活地調整,使得這種DSP的運行非常緩慢達,不到設計要求。并且,一些應用領(lǐng)域并不能夠充分利用通用DSP提供的全部特性,這樣導致DSP的資源不必要的浪費。但是,如果針對專(zhuān)有應用而開(kāi)發(fā)專(zhuān)用集成電路(AISC),其靈活性也受到很大的限制,而且這種設計方法開(kāi)發(fā)周期長(cháng)、風(fēng)險高,并不適合于算法復雜且靈活變化的應用。

不同于傳統的嵌入式通用DSP,Tensilica的 LX處理器可以自由配置、可以靈活擴展并且能夠自動(dòng)生成。設計者能夠根據特殊的應用靈活配置處理器,即對處理器結構進(jìn)行相應的裁減,使處理器性能和特殊應用達到完美的匹配。同時(shí),利用Tensilica指令擴展(TIE)技術(shù),加入設計者自定義的硬件輔助執行單元,可以得到與硬件設計相媲美的性能、面積和功率特性。

Xtensa LX處理器設計流程

作為面向特殊應用的可靈活配置和擴展的嵌入式微處理器,Xtensa LX處理器有其獨特的設計流程,該流程包括從處理器配置到具體硬件實(shí)現的完整過(guò)程。其中,Xtensa LX處理器設計的一個(gè)重要特點(diǎn)就是需要借助Tensilica提供的處理器生成器(XPG)來(lái)自動(dòng)產(chǎn)生用戶(hù)自定義的處理器軟件和硬件開(kāi)發(fā)環(huán)境。該生成器位于Tensilica公司的服務(wù)器上,用戶(hù)在設計過(guò)程中需要與其交互才能開(kāi)發(fā)出滿(mǎn)意的專(zhuān)有應用處理器。

Xtensa LX處理器完整設計流程包括軟件開(kāi)發(fā)與硬件實(shí)現階段,即處理器探索、生成以及實(shí)現三個(gè)步驟。并且針對不同的設計階段,Tensilica提供統一的開(kāi)發(fā)環(huán)境Xtensa Xplorer,設計者利用該工具能夠進(jìn)行單處理器與多處理器的開(kāi)發(fā)。圖1顯示了利用XPG和Xtensa Xplorer開(kāi)發(fā)專(zhuān)用應用處理器的完整設計流程。

首先,根據算法的特點(diǎn)和復雜度,設計者可靈活配置處理器并生成處理器配置文件(Xtensa Configuration File, XCF),該文件除了包括Xtensa LX處理器的基本指令集結構以外,還含有針對特殊算法所用到的配置功能,如乘累加運算模塊、各種調試接口以及外圍總線(xiàn)接口等。然后,設計者需要把該文件上傳給XPG作自動(dòng)處理,經(jīng)過(guò)一段時(shí)間XPG把處理的結果又自動(dòng)下載給設計者。在該階段,XPG根據用戶(hù)選擇的硬件實(shí)現技術(shù)(目前130或180nm)來(lái)估計該配置處理器的面積、功耗以及運算頻率等,方便用戶(hù)設計。同時(shí),XPG根據XCF還能自動(dòng)生成適合于自定義處理器的各種軟件開(kāi)發(fā)工具,包括編譯器、匯編器、連接器、調試器以及指令集仿真器等。

在這些工具基礎之上,設計者就能實(shí)現算法的各種編譯、調試和仿真等軟件開(kāi)發(fā)工作。在軟件開(kāi)發(fā)階段的另外一項重要工作就是設計者根據處理器指令集的特殊結構以及算法的特點(diǎn),利用指令擴展技術(shù)開(kāi)發(fā)出設計者自定義的執行單元,輔助處理器的運算,大規模提高處理器的處理性能。如果該自定義處理器的性能、面積、功耗以及運算頻率等滿(mǎn)足用戶(hù)的設計要求,配置文件XCF和TIE文件就固定下來(lái),利用它們完成處理器的硬件實(shí)現。如果該處理器不滿(mǎn)足設計要求,則可重新開(kāi)始設計流程的第一步,不斷反復設計優(yōu)化,直至開(kāi)發(fā)出設計者滿(mǎn)意的自定義處理器內核。

圖2:實(shí)現結構。


對于Xtensa LX處理器的硬件實(shí)現,XPG需要利用設計者確定的配置文件XCF和TIE文件,自動(dòng)生成后端實(shí)現所需要的各種參數和模塊,包括:RTL仿真模型、處理器網(wǎng)表、各種實(shí)現腳本、靜態(tài)時(shí)序模型、硬件設計接口、指令集仿真器、軟硬件協(xié)同仿真模型等等。當然,處理器的仿真以及實(shí)現還需要借助各種EDA工具,如NC -Verilog、Design Compiler、PrimeTime、Seamless等。

根升余弦的設計實(shí)現

根據第三代合作伙伴計劃(3GPP)規定,在TD-SCDMA終端通信系統中需要使用根升余弦(Root Raised Cosine, )濾波器來(lái)實(shí)現數據的接收和發(fā)送。在終端系統中,濾波器需要處理大量數據,通常其算法的實(shí)現都是用硬件來(lái)完成的。而Xtensa

表1:RRC濾波器特性。

LX處理器不僅能處理大量密集計算型數據,處理性能接近ASIC硬件實(shí)現,同時(shí),該處理器的設計又比硬件實(shí)現更加靈活快速。所以,RRC濾波器可以用Xtensa LX處理器來(lái)實(shí)現。

1. 根升余弦濾波器算法

根升余弦濾波器的沖擊響應可表示為











其中Tc表示碼片周期,(為滾降因子。通過(guò)大量仿真可以得到,用矩形窗函數法實(shí)現的RRC濾波器就能夠充分滿(mǎn)足TD-SCDMA通信系統的要求。該濾波器的特性見(jiàn)表1。

通過(guò)公式1和表1,可以先計算出濾波器的65點(diǎn)沖擊響應值,在實(shí)現輸入數據的濾波時(shí)就可以直接通過(guò)查表法快速地提取該響應,方便計算。

2. 根升余弦濾波器實(shí)現

RRC濾波器對輸入數據的濾波可用下式表示:









式中,N為濾波器沖擊響應參數,h(n)表示濾波器沖擊響應,x(n)表示輸入數據,y(n)表示經(jīng)濾波后的輸出數據。根據公式2的卷積特性,RRC濾波器能用圖2所示的典型結構實(shí)現。

由圖2結構可以看出,該濾波器的實(shí)現包括兩個(gè)操作:輸入數據x(n)的移位運算,輸入數據x(n)與濾波器沖擊響應h(n) 的乘累加運算。在通用的DSP中,輸入數據的每次移位只能有一個(gè)數據參加操作,且數據的乘累加被分開(kāi)運算,即先做乘法再做加法,同時(shí)DSP還要完成對大量數據的存取操作,這些因素使通用DSP實(shí)現的RRC濾波器運算非常緩慢。而利用Tensilica提供的處理器擴展功能,設計者能夠方便地加入自定義的執行單元輔助處理器完成運算工作,加快RRC濾波器的運算,達到與硬件實(shí)現相媲美的處理性能?;赬tensa LX處理器的RRC濾波器實(shí)現,利用Tensilica提供的獨特的處理技術(shù),有兩種方法可以完成設計,下面分別論述。

a. 實(shí)現方法一

在通用的DSP中,每次只能一個(gè)數據參加移位操作,當大量數據需要處理時(shí)移位操作會(huì )消耗大量處理時(shí)間。而TIE技術(shù)提供單指令多數據(SIMD)功能,該功能允許在一個(gè)處理器指令內同時(shí)對多個(gè)數據進(jìn)行操作。在RRC濾波器的移位操作中利用該技術(shù),我們可同時(shí)對多個(gè)數據進(jìn)行移位,從而縮短處理器的執行時(shí)間,提高處理器的性能。

表2:方法一Xtansa LX處理器性能。

在RRC濾波器處理過(guò)程中,乘累加操作也是主要運算工作,如何減少該操作的執行時(shí)間也是提高處理器性能的有效途徑之一。 TIE技術(shù)也提供融合(fusion)功能,該功能允許設計者把多個(gè)連續的指令加入到一個(gè)指令中,即用一個(gè)指令就能執行多個(gè)連續的處理動(dòng)作。對于乘累加操作,在傳統的通用DSP設計之中,總是先進(jìn)行乘法運算再作加法運算,它們是兩個(gè)連續的操作,需要兩個(gè)處理器指令。而利用融合技術(shù),可以把乘法和加法這兩個(gè)連續的指令融合在一個(gè)指令中,使得處理器在一個(gè)時(shí)鐘周期內就能夠完成乘累加操作,從而加快處理器的執行。同時(shí),結合SIMD技術(shù)可同時(shí)對多個(gè)輸入數據和沖擊響應進(jìn)行乘累加操作,進(jìn)一步減少處理器的運算時(shí)間,提高處理器性能。利用方法一實(shí)現RRC濾波器的Xtensa LX處理器性能見(jiàn)2。

b. 實(shí)現方法二

在方法一中,雖然運用了融合和SIMD技術(shù)提高RRC濾波器處理性能,但DSP對數據的存取依然花費了大量的時(shí)間,這是因為 DSP總線(xiàn)帶寬有一定限制,同時(shí)對多個(gè)數據進(jìn)行讀寫(xiě)操作不能實(shí)現。為了加快處理器執行速度,提高對多個(gè)數據進(jìn)行同時(shí)處理的并行性,Tensilaca的 TIE技術(shù)通過(guò)提供特殊的寄存器(state)和用戶(hù)自定義的寄存器(regfile),可以顯著(zhù)的減少處理器在執行過(guò)程中對儲存器操作所花費的大量時(shí)間。

在方法一中實(shí)現的RRC濾波器乘累加操作必須等待移位操作完成之后才能進(jìn)行,而且需要反復對儲存器讀和寫(xiě)??梢赃\用 state和regfile這兩種用戶(hù)自定義的特殊寄存器,在state寄存器中存放乘累加的結果,在regfile寄存器中存放移位操作結果,這樣,利用融合技術(shù)可以在移位的同時(shí)進(jìn)行乘累加操作,而且不再需要對儲存器讀寫(xiě)而是直接調用寄存器操作,在減少DSP存取操作的同時(shí)提高數據處理的并行性。

利用上述方法,可節省大量的處理器運行時(shí)鐘數,其性能見(jiàn)表3。

c. 各種實(shí)現方法比較

方法一只從計算的角度考慮RRC濾波器用到移位和乘累加操作,利用Tensilica提供的融合與SIMD技術(shù)把二者結合起來(lái),加快處理器的執行。然而,該方法在減少計算量的同時(shí)并沒(méi)有考慮到處理器讀寫(xiě)儲存器所花費的時(shí)間。實(shí)際上,按照這種方法所設計的濾波器,處理器執行過(guò)程中的數據運算部分已經(jīng)足夠精簡(jiǎn),大部分處理時(shí)間都花在了對儲存器的操作上。

方法二正好把數據運算與存儲操作結合起來(lái),利用Tensilica獨特的用戶(hù)自定義寄存器功能,可以減少對儲存器的操作,從而加快處理器的運算。該方法比前者性能提高將近12倍左右,但因為這種方法利用TIE定義了更多的輔助執行單元,所以用此方法實(shí)現的處理器面積更大,這就需要設計者有明確的目標,在性能和面積上作適當的選擇。當然,如果工程師花更多時(shí)間理解和研究Tensilica開(kāi)發(fā)工具,相信還能為算法找到更好的方案。

表3:方法二Xtenasa LX處理器性能。

同時(shí),我們也已經(jīng)通過(guò)ASIC設計方法實(shí)現了RRC濾波器。利用這種方法處理相同長(cháng)度的輸入數據共需要2,748個(gè)執行時(shí)鐘,所用門(mén)數在2,700左右??梢?jiàn),方法二實(shí)現的濾波器性能已經(jīng)接近硬件設計,二者性能只相差3倍左右。但是,因為Xtensa LX處理器不只含有用戶(hù)自定義的執行單元,還包含有最基本的指令結構集,使處理器面積不可能做到專(zhuān)用ASIC那么大小。并且算法和應用越復雜才越能充分利用Xtensa LX處理器的基本資源,使處理器不僅性能而且面積也接近ASIC實(shí)現,這樣才更能體現LX處理器設計靈活、可自由配置和彈性擴展的優(yōu)勢。

本文小結

Tensilica能夠針對用戶(hù)專(zhuān)用算法,不但提供獨特的可自由配置和靈活擴展的Xtensa LX處理器,而且還自動(dòng)產(chǎn)生適合于該處理器的一系列軟件工具和硬件實(shí)現模型。同時(shí),運用Tensilica提供的TIE技術(shù),工程師可以方便快速地開(kāi)發(fā)出自定義執行單元輔助處理器的運行,大幅度提高處理器性能,滿(mǎn)足用戶(hù)的需要。但需要注意的是,作為輔助執行單元,TIE技術(shù)會(huì )增加處理器的面積,執行頻率也會(huì )受到影響,所以設計者應該明確自己的目標,需要在性能與面積及速度中做出折中的選擇。

從以上比較中可以看出,運用Tensalica的Xtensa LX處理器實(shí)現的RRC濾波器性能接近硬件實(shí)現,而且這種處理器開(kāi)發(fā)周期明顯縮短,設計靈活具有軟件可編程特性,在超大型復雜應用中更能體現其強大的優(yōu)勢。并且當復雜功能的SoC經(jīng)過(guò)多個(gè)Xtensa處理器實(shí)現后,比傳統(CPU+DSP+RTL)的實(shí)現方式更經(jīng)濟也是有可能的,在開(kāi)發(fā)速度上新方法則有明顯優(yōu)勢。

參考文檔

1. Tensilica, "Xtensa(r) LX Microprocessor Data Book", Sept. 2004
2. Tensilica, "Xtensa(r) LX Microprocessor Overview Handbook", Sept. 2004 3. Tensilica, "Xtensa(r) Instruction Extension (TIE) Language User's Guide", Sept. 2004
4. Tensilica, "Xtensa(r) Instruction Set Architecture (ISA) Reference Manual", Sept. 2004
5. 3GPP TS 25.102, "UE Radio Transmission and Reception (TDD)(Release 4)", V4.7.0, 2002-12
6. 丁玉美,高西全,西安電子科技大學(xué)出版社“數字信號處理(第二版)”,2001年1月
7. 周炯,龐沁華,續大我,吳偉陵,北京郵電大學(xué)出版社,“通信原理(上)”,2003年6月



評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>