采用TI多標準基站SoC全面提升性能
自無(wú)線(xiàn)網(wǎng)絡(luò )誕生以來(lái),其數據吞吐能力已實(shí)現快速增長(cháng)。對營(yíng)運商來(lái)說(shuō),最終的衡量標準是頻譜每赫茲承載的比特數,以及實(shí)現特定吞吐能力所需的相關(guān)成本及功耗。一直以來(lái),在無(wú)線(xiàn)標準升級的每一個(gè)轉折點(diǎn),TI 都無(wú)一不為基站設備帶來(lái)價(jià)值與創(chuàng )新。如今,TI 的基站 SoC 只需少量電路系統即可處理無(wú)線(xiàn)基帶第 1 層 (L1)、第 2 層 (L2) 與傳輸功能。TI 10 余年的豐富經(jīng)驗建立在成功的部署周期之上,主要體現在在以下方面積累的豐富知識:
本文引用地址:http://dyxdggzs.com/article/260424.htm1. TI 在最新的半導體工藝技術(shù)節點(diǎn)上成功推出眾多器件,不僅能夠實(shí)現顯著(zhù)的性能提升,同時(shí)還能大幅降低成本及功耗;
2. TI 在 DSP 技術(shù)領(lǐng)域擁有穩固的領(lǐng)先地位。毋庸置疑,無(wú)線(xiàn)基站需要為全球無(wú)線(xiàn)標準的傳輸與接收提供充分的數字信號處理能力。TI 擁有強大的實(shí)力,能夠利用其行業(yè)領(lǐng)先的半導體工藝技術(shù)持續推出數字處理性能不斷飛速發(fā)展的未來(lái)產(chǎn)品。各種優(yōu)勢全面結合,即能為市場(chǎng)推出高性?xún)r(jià)比的解決方案;
3. TI 始終致力于改進(jìn)其高性能多內核 SoC。雖然無(wú)線(xiàn)基站的大多數功能都能夠由 DSP 執行,但 DSP 最為擅長(cháng)的則是與目標加速器相結合來(lái)實(shí)現各種優(yōu)化目標,其中包括實(shí)現極高的單位頻率吞吐能力、單位功率吞吐能力以及低系統成本等。在將硬件加速與業(yè)界領(lǐng)先 DSP 相結合以減輕無(wú)線(xiàn)標準的處理方面,TI 極為成功,能夠以極低的成本與低功耗實(shí)現前所未有的吞吐能力。
TI 基站創(chuàng )新的第三個(gè)主要部分是本文的重點(diǎn)所在,即 TI 為基站 SoC 創(chuàng )建可配置硬件加速器的成功戰略。在決定將無(wú)線(xiàn)信號處理鏈上的哪些部分轉移到可配置硬件加速模塊中時(shí),有若干關(guān)鍵問(wèn)題需要考慮,其中包括:
2
1. 無(wú)線(xiàn)信號鏈的哪些部分發(fā)生重大變化的可能性最小,而且哪些應基于成熟的標準之上?
2. 在候選功能中,設備制造商能否添加其自己的知識產(chǎn)權 (IP),以提供高級功能與差異化?
3. 無(wú)線(xiàn)信號鏈上的哪個(gè)部分具有最高的處理強度(如果在 DSP 的軟件中實(shí)施時(shí),需要最高的 DSP MIPS)?
4. 分配在硬件中的哪些功能可以簡(jiǎn)化并加快開(kāi)發(fā)與測試?
5. 為確保全面的多內核能力與峰值加速器性能,需要何種類(lèi)型的 SoC 基礎局端?
要解決上述的第一個(gè)問(wèn)題,需要確保無(wú)線(xiàn)處理標準的這些部分(無(wú)論仍處于開(kāi)發(fā)中還是處于實(shí)驗階段)都將由 DSP 負責處理,這樣營(yíng)運商或 OEM 廠(chǎng)商才能實(shí)現解決方案的差異化。在對各種信號鏈功能及使用模型的 MIPS 要求進(jìn)行分析后,就可以確定哪些功能應被移入硬件加速器,從而在降低成本和加快投產(chǎn)進(jìn)度方面獲得顯著(zhù)優(yōu)勢。
除了各種基于硬件的加速器外,TI 還創(chuàng )建了一種可確保實(shí)現高效率零復制數據流的創(chuàng )新型 KeyStone 架構,從而能夠在內核、加速器以及外設之間實(shí)現非阻塞的系統互連。此外,該架構還能確保協(xié)處理器得到充分利用。它還可以減少中斷及軟件上下文環(huán)境的切換次數,以最大限度地實(shí)現所有內核的最佳利用,從而使所有系統組件都能得到全面利用。
確定系統優(yōu)化的機會(huì )
確定新基站 SoC 設計方法的第一步,是考慮新一代基站的預期性能要求并理解其對SoC 設計的影響。
TCI6618 具備一系列針對新一代基站的用例目標參數。由于 TI TCI6488 是目前應用于基站的領(lǐng)先 SoC,因而其是一種非常適用于基線(xiàn)分析的器件。
下列各參數基于 LTE 系統中 TCI6488 器件的性能:
天線(xiàn):2x2 發(fā)送與接收
帶寬:20MHz
數據率:150 Mbps 下行,75 Mbps 上行
LTE 物理層概覽
LTE 物理層需要對每個(gè)物理層通道進(jìn)行高強度的信號處理。主要的物理層通道如下:
下行通道:
PDSCH:物理下行共享通道
PDCCH:物理下行控制通道
采用 TI 多標準基站 SoC 實(shí)現性能、效率與差異化的全面提升 2011 年 2 月
上行通道: 3
PUSCH:物理上行共享通道
PUCCH:物理上行控制通道
PRACH:物理隨機訪(fǎng)問(wèn)通道
對于每個(gè)數據和控制通道而言,可將物理層處理分為兩個(gè)主要的功能模塊:比特率與 IQ 采樣處理。
圖 1 顯示的 PDSCH 信號鏈由如下方面構成:
IQ 采樣處理 — 處理 LTE 物理資源,將其映射到天線(xiàn)的不同層并轉換為 OFDM 符號以用于空中傳輸。
比特率處理 — 處理來(lái)自 L2 的傳輸模塊,通過(guò)計算循環(huán)冗余校驗 (CRC) 并將其附加給傳輸模塊來(lái)啟動(dòng)處理進(jìn)程。如果傳輸模塊大于 6,144 位的最大允許代碼模塊尺寸,則執行代碼模塊分段。在進(jìn)行通道編碼前,要進(jìn)行新的 CRC 計算并將其附著(zhù)于每個(gè)代碼模塊上。
圖 1 - FDSCH 信號處理鏈
PUSCH 是 PDSCH 的反向過(guò)程,同樣含有下列 IQ 樣本與比特率處理:
IQ 樣本處理 —— 處理接收到的 OFDM 符號物理資源。這涉及通道估算與最大比率合并 (MRC) /多輸入、多輸出 (MIMO) 均衡,以從各個(gè)天線(xiàn)分離用戶(hù)數據。
比特率處理 —— 為在 L2 內實(shí)現進(jìn)一步處理而進(jìn)行的通道解調、解多路復用、錯誤校正與解碼。
圖2 - PUSCH 信號處理鏈
分析 TMS320TCI6488 中的 LTE 物理層處理 4
TCI6487/8 是 TI 最新系列的多內核 SoC,由三個(gè) C64x+TM CPU 內核構成。采用這種 SoC 的運營(yíng)商已有數百家,年出貨量數百萬(wàn)片。通過(guò)分析 TCI6488 的 LTE 性能,可以深入了解如何構建新一代的高性能 SoC。圖 3 所示為在 TCI6488 上采用 2x2 MIMO、150Mbps 下行吞吐速率及 75Mbps 上行吞吐速率時(shí),20 MHz LTE 的周期占用數及分布。
圖 3 - TCI6488 上的 LTE 物理層處理
從圖上可以明顯看出,FFT/IFFT、PDSCH 比特率處理、PUSCH 比特率處理與 PUCCH 占用了總 DSP 周期中的大部分。
為進(jìn)一步改進(jìn)總體系統性能,滿(mǎn)足新一代 LTE 系統的要求,必須設計出具備良好均衡性且可擴展的架構,以便最大限度地發(fā)揮 SoC 的多內核計算性能。這就要求最大限度地提高系統的互連吞吐量,并將存儲器存取與數據傳輸時(shí)延降到最小。
通過(guò)對 LTE 要求的總處理周期進(jìn)行分析,我們發(fā)現通過(guò)增強 DSP 內核的信號處理能力,不僅能夠減少處理周期的總數量,而且還能增大系統容量、提升性能。最新推出的 C66x DSP 內核通過(guò)將 C64x+ 的乘/累加 (MAC) 能力銳升四倍可實(shí)現這一目標。此外,新內核還同時(shí)集成了定點(diǎn)與浮點(diǎn)功能,并可為矢量處理與矩陣處理提供新的指令。
如快速傅里葉變換 (FFT) 與快速傅里葉逆變換 (IFFT) 等特定函數需要在 LTE 信號鏈上的許多地方執行,并且用于在時(shí)域與頻域之間進(jìn)行數據轉換。FFT 與離散傅立葉變換 (DFT) 已屬成熟算法,因此它們有可能作為硬件加速的候選以用于釋放 CPU 周期,這樣 DSP 內核就可用于執行客戶(hù)差異化功能。
5
LTE 的上行與下行比特率處理及其他無(wú)線(xiàn)技術(shù)包含眾多標準算法,適用于調制、解調、交錯、解交錯、速率匹配、解速率匹配、加擾與去擾等運算。TI 新型比特率協(xié)處理器 (BCP) 是一種可為多種標準釋放所有比特率處理功能的加速器,它可大幅度提升系統容量,從而簡(jiǎn)化軟件編程、減少系統時(shí)延。
這些就是可以在 TCI6616 及 TCI6618 基站 SoC 中實(shí)現創(chuàng )新與性能飛躍提升的系統優(yōu)化機會(huì )的示例。
TI KeyStone 架構
KeyStone 多內核 SoC 架構是業(yè)界同類(lèi)架構中率先可提供基礎局端以確保所有內核都能得到充分利用的架構。KeyStone 可實(shí)現對所有處理內核、外設、協(xié)處理器及 I/O 的非阻塞訪(fǎng)問(wèn)??蓪?shí)現這類(lèi)多內核能力的部分 KeyStone 創(chuàng )新技術(shù)包括:多內核導航器、TeraNet、多內核共享存儲控制器 (MSMC) 及超鏈接。
TI 多內核導航器是一種基于分組的創(chuàng )新型管理器,能夠在提取不同子系統間連接的同時(shí),控制 8,192 個(gè)隊列。它可為實(shí)現通信、數據傳輸及工作管理提供統一接口。通過(guò)采用“一次性完成,零復制”的設計理念,多內核導航器能夠以更少的中斷及更低的軟件復雜度實(shí)現更高的系統性能。
舉例來(lái)說(shuō),多內核導航器能夠進(jìn)行任務(wù)調度,且在無(wú)需外部管理的情況下即能指示下一個(gè)空閑 DSP 內核讀取并處理任務(wù)。這樣通過(guò)提供下列功能,即可簡(jiǎn)化 SoC 軟件架構,進(jìn)而提升基站的性能:
動(dòng)態(tài)資源/負載共享
減輕與子系統間通信相關(guān)的 CPU 開(kāi)銷(xiāo)/延遲
基于硬件的任務(wù)優(yōu)先級排序
動(dòng)態(tài)負載平衡
針對所有 IP 模塊(軟件、I/O 及加速器)的通用通信方法
多內核導航器能夠在無(wú) CPU 干預的情況下控制數據流,可從移動(dòng)數據中釋放 CPU 周期并將片上通信速率提升至每秒 2,000 萬(wàn)條消息。此外,其還能夠使用更為簡(jiǎn)單的軟件架構以縮短開(kāi)發(fā)周期并提高資源利用率。
TeraNet 能夠提供層級交換結構,可在 SoC 內為數據傳輸提供超過(guò) 2 Tbit 的總帶寬。這樣幾乎可確保不會(huì )出現內核與協(xié)處理器沒(méi)有數據可處理的情況,從而使他們在任何需要的位置和時(shí)間都可以發(fā)揮其最大的處理功效。由于交換結構采用了層級架構而非扁平縱橫式結構,因此總體功耗能在空閑狀態(tài)下實(shí)現大幅度下降且能以最低時(shí)延實(shí)現高性能,從而充分滿(mǎn)足新一代基站的這種關(guān)鍵要求。
多內核共享存儲控制器 (MSMC) 是一種可增強性能的獨特架構。MSMC 可以讓內核在不占用任何 TeraNet 帶寬的情況下直接訪(fǎng)問(wèn)共享存儲器。MSMC 可以協(xié)調內核及其他 IP 模塊對共享存儲器的訪(fǎng)問(wèn),以避免發(fā)生存儲器爭用的情況發(fā)生。DDR3 外部存儲器接口 (EMIF) 可直接連接至 MSMC,從而降低因發(fā)生外部存儲器存取而導致的時(shí)延,并為基站應用提供所需的高速訪(fǎng)問(wèn)與支持。
6
超鏈接具有 50Gbps 的總吞吐能力,是一種互連機制,能夠以極少的協(xié)議實(shí)現與其它 KeyStone、FPGA 及 ASIC 器件的高速通信與連接。其可為主器件上的配套器件提供透明的存儲器映射訪(fǎng)問(wèn),從而不僅可大幅簡(jiǎn)化軟件編程,同時(shí)還能為 OEM 廠(chǎng)商提供實(shí)現可擴展解決方案的無(wú)縫路徑。
全新 DSP 內核
TCI66x SoC 解決方案包含性能顯著(zhù)增強的全新處理內核。其是業(yè)界首款同時(shí)集成了定點(diǎn)和浮點(diǎn)功能的基站 DSP 內核。增強的性能可幫助 OEM 廠(chǎng)商構建極富差異化功能的軟件,從而滿(mǎn)足高級操作人員的要求。
TMS320C66x 內核
作為 TI 的新一代定點(diǎn)及浮點(diǎn) DSP,新型 C66x 內核具備集成了 8 個(gè)功能單元和 64 個(gè)通用 32 位寄存器的高級 VLIW 架構。全新系列器件基于 TI 前代 C64x+ 內核架構之上,擁有屢獲殊榮的指令集架構和眾多功能強大的特性,如每個(gè)周期能夠執行 8 個(gè)指令,從而可實(shí)現高度的并行性能。
全新的 C66x DSP 內核實(shí)現眾多特性改進(jìn),其中包括:
原生浮點(diǎn)處理,可逐指令地與定點(diǎn)實(shí)現無(wú)縫協(xié)作。通過(guò)以業(yè)界領(lǐng)先的定點(diǎn) DSP 速度提供原生浮點(diǎn)支持,實(shí)現了浮點(diǎn)處理領(lǐng)域的重大進(jìn)步;
MAC 實(shí)現了 4 倍的性能提升,每周期可提供 32 個(gè) 16x16 位 MAC;
專(zhuān)為復雜算法、線(xiàn)性代數和矩陣運算而精心優(yōu)化;
全流水線(xiàn)雙精度浮點(diǎn)乘法器;
減少雙精度乘法時(shí)延。
所有這些改進(jìn)都能大幅提升 L1 和 L2 的總體處理性能。4G 基站解決方案具備 MIMO 和波束成形等算法,可充分利用多天線(xiàn)信號處理實(shí)現性能提升。這些算法通常需要矩陣逆轉技術(shù),從本質(zhì)上來(lái)說(shuō)非常容易遭受與定點(diǎn)處理相關(guān)的量化及擴展問(wèn)題的影響。這些多天線(xiàn)技術(shù)仍在不斷演進(jìn)發(fā)展,具備可幫助客戶(hù)實(shí)現差異化功能的實(shí)施靈活性至關(guān)重要。將最新的 C66x 增強功能用于矩陣運算和浮點(diǎn)支持,能夠同時(shí)顯著(zhù)提高系統的速度和準確度,從而為移動(dòng)電話(huà)用戶(hù)帶來(lái)更精彩的體驗。
采用 C66x 內核增強 MIMO 接收機
我們同時(shí)在 LTE 和 LTE-A 中采用了眾多高級接收機算法。例如,在 LTE-A 新技術(shù)中可實(shí)現更先進(jìn)的多用戶(hù) MIMO (MU-MIMO) 預編碼方案。此外,單用戶(hù) MIMO (SU-MIMO) 還可支持更高的數據速率。增強型 C66x 內核不僅可幫助設計團隊在上述領(lǐng)域實(shí)現差異化特性,而且最終還能幫助他們實(shí)現操作人員所需的高級特性。
7
MIMO 解碼在算法上非常復雜,往往需要使用客戶(hù) IP 來(lái)提升效率和性能。復雜度隨天線(xiàn)數量的增加而相應增加。雖然大多數專(zhuān)家都一致認為第二種傳輸天線(xiàn)至少在最近幾年都不會(huì )獲得廣泛使用,但當前的系統仍以 2xN(2 路傳輸,N 路接收)配置為主。實(shí)施 MIMO 接收機算法的方式有很多種,其中包括較低復雜側的線(xiàn)性 MMSE 和較高復雜端的球狀解碼。在 OEM 廠(chǎng)商測試不同算法的時(shí)候,進(jìn)行高效率的軟件實(shí)施使他們能夠在部署 LTE 系統的同時(shí)適配并測試不同的構想方案。這種高靈活性在基礎局端部署的最初幾年非常關(guān)鍵,直到新的網(wǎng)絡(luò )落實(shí),工程師才能更好地理解問(wèn)題所在。
C66x 架構具備擴展指令集,可用于加速 DSP 內核的 MIMO 處理。浮點(diǎn)可以實(shí)現高效的矩陣反轉算法,從而較定點(diǎn)實(shí)施相比能夠實(shí)現更高的性能,而且與硬件加速相比能夠實(shí)現更高的靈活性。通過(guò)充分發(fā)揮浮點(diǎn)功能和 4 倍的 MAC 性能改進(jìn),C66x DSP 內核中的 MIMO 處理量與前代 DSP 相比降低了 5 倍。
全新的加速功能
通過(guò)分析 LTE 和 WCDMA 系統要求,我們已確定了一些需要改進(jìn)的功能,并按重要性進(jìn)行如下排序:
FFT/IFFT/DFT
下行鏈路比特率處理
上行鏈路比特率處理
上行鏈路控制通道接收機
MIMO 接收機
WCDMA 傳輸碼片率 IQ 采樣處理 (TAC)
WCDMA 接收碼片率 IQ 采樣處理 (RAC)
此外,4G 較高的數據速率和高速 3G 系統都需要大量的改進(jìn)才能完成 turbo 解碼功能。
TCI6616 AccelerationPacs
為了更好地滿(mǎn)足高速發(fā)展的 3G 和 4G 市場(chǎng)需求,TI 為 TCI6616 開(kāi)發(fā)了眾多新的加速器。
傳輸碼片率協(xié)處理器 (TAC)
TAC 能為多達 256 個(gè)下行鏈路 WCDMA 用戶(hù)執行傳輸碼片率擴展運算。該加速器可將符號率處理的數據作為輸入,然后再將芯片擴展序列輸出到基站的各個(gè)天線(xiàn)輸出端。
TAC 能夠執行下列運算:
符號調制
開(kāi)環(huán)分集處理,其中包括空間時(shí)間傳輸分集 (STTD) 和時(shí)間交換傳輸分集 (TSTD)
8
閉環(huán)處理,其中包括閉環(huán)分集、用于 HSDPA 的 MIMO、下行鏈路功率控制、上行鏈路功率控制、隨機訪(fǎng)問(wèn)采集指示傳輸、E-DCH 相對授權和混合 ARQ 指示傳輸
各個(gè)通道的增益應用
支持壓縮模式
擴展和加擾
功耗測量
媒體流失調和延遲
波束成型
媒體流匯總
TCA 支持所有 WCDMA 下行鏈路通道:
P-SCH:主同步通道
S-SCH:次同步通道
P-CPICH:主通用導頻通道
S-CPICH:次通用導頻通道
P-CCPCH:主通用控制物理通道
PICH:傳呼指示器通道
AICH:采集指示器通道
HS-SCCh:高速共享控制通道
HS-PDSCH:高速物理下行鏈路共享通道
E-AGCH:E-DCH 絕對授權通道
E-RGCH:E-DCH 相對授權通道
E-HICH:E-DCH 混合 ARQ 指示器通道
MICH:MBMS 指示器通道
DPCH:專(zhuān)用物理通道
F-DPCH:部分專(zhuān)用物理通道
如 RNC 和 Node-B 之間的 NBAP(Node-B 應用部分)協(xié)議所示,TAC 可實(shí)現靈活的通道配置和重配置。
接收加速器協(xié)處理器 (RAC) RAC 能為多達 256 個(gè) WCDMA 用戶(hù)執行上行鏈路碼片率解擴運算。其包含基于矢量的高靈活性可配置關(guān)聯(lián)引擎,能夠支持大量的同步關(guān)聯(lián)。
RAC 支持下列模式的運算:
FD:用于生成原始符號的徑解擴
FT:用于執行 EOL(過(guò)早、按時(shí)、延遲)測量的徑跟蹤
FPE:用于執行徑干擾關(guān)聯(lián)的徑功耗估算
9
PM:在天線(xiàn)上執行脈沖響應曲線(xiàn)以進(jìn)行徑探測的路徑監控器
PD:在簽名上執行脈沖響應曲線(xiàn)以進(jìn)行前導碼檢測
SPE:執行寬帶媒體流功耗測算的媒體流功耗估算功能
下面是 RAC 支持的上行鏈路物理通道:
DPCCH:專(zhuān)用物理控制通道
DPDCH:專(zhuān)用物理數據通道
HS-DPCCH:高速專(zhuān)用物理控制通道
E-DPCCH:增強型專(zhuān)用物理控制通道
E-DPDCH:增強型專(zhuān)用物理數據通道
PRACH:物理隨機訪(fǎng)問(wèn)通道
Turbo 解碼器 3 (TCP3d)
Turbo 解碼器 3 協(xié)處理器 (TCP3d) 是前代 Turbo 解碼器 2 的改進(jìn)版本。TCP3d 可支持 WCDMA、TD-SCDMA、LTE 和 WiMAX,是一種在上行鏈路處理中對 Turbo 代碼進(jìn)行解碼的可配置外設。TCP3d 的輸入是系統位和校驗位的軟決策,而輸出既可為軟決策,也可為硬決策。為了最大限度地減少與使用該協(xié)處理器相關(guān)的開(kāi)銷(xiāo),TCP3d 可生成 Turbo 交錯表,并能在除執行解碼之外還支持基于代碼模塊的 CRC 計算。其結果是 TCP3d 的開(kāi)銷(xiāo)比 TCP2 低 7 倍。TCP3d 在 TCI6616 上的吞吐量在 6 次迭代后為 389Mbps。
Turbo 編碼器 (TCP3e)
Turbo 編碼器協(xié)處理器3 (TCP3e) 是用于 Turbo 代碼編碼的協(xié)處理器,可支持 WCDMA、TD-SCDMA、LTE 和 WiMAX。輸入 TCP3e 的是信息位,輸出的則是編碼后的系統位和校驗位。它支持基于代碼模塊的 CRC、turbo 編碼和 turbo 交錯表生成,最大吞吐能力為 643Mbps。
快速傅立葉轉換協(xié)處理器 (FFTC)
快速傅立葉轉換協(xié)處理器 (FFTC) 可實(shí)施用于 LTE 和 WiMAX 的 FFT/iFFT 和 DFT/iDFT。多內核導航器 (Multicore Navigator) 使數據能夠直接在協(xié)處理器端進(jìn)行輸入和輸出路由,并傳輸到 I/O。此外,其還能執行周期性的前綴移除和插入以及頻率轉換,從而進(jìn)一步降低 DSP 上的處理負載。FFTC 的吞吐能力為每秒 12.72 億個(gè)副載波。
圖 4 顯示了 TCI6616 的方框圖。
TCI6616 具有創(chuàng )新型 KeyStone 架構、增強型 C66x 內核并新增了 LTE 和 WCDMA 協(xié)處理器,能夠為無(wú)線(xiàn)基站應用實(shí)現較其他 SoC 高 5 倍的性能提升。
TCI6618 AccelerationPacs
TCI6618 為 TCI6616 增添了加速特性,可將 LTE 性能翻番。由于 TCI6618 能夠與 TCI6616 實(shí)現引腳兼容,因而 OEM 廠(chǎng)商可通過(guò)選擇系統適用的器件輕松靈活地進(jìn)行平臺優(yōu)化。
由于 LTE 系統能夠處理比 3G 系統高得多的數據速率,因而加速測重于對比特率的處理。
比特率協(xié)處理器
比特率協(xié)處理器 (BCP) 是一種多標準的協(xié)處理器,其能夠大幅減輕 DSP 的所有比特率處理任務(wù),從而使信號鏈的位處理部分無(wú)需占用任何 DSP 周期。它能夠顯著(zhù)簡(jiǎn)化了軟件設計,并能實(shí)現極低的系統時(shí)延。BCP 可執行以下功能:
調制/解調
交錯/解交錯
速率匹配/解速率匹配
11
• 加擾/解擾
• LTE 的 PUCCH 解碼
• Turbo 和卷積編碼
• CRC 連接和校驗
BCP 不僅能夠針對 MIMO 均衡實(shí)現 turbo 干擾消除,而且還實(shí)現了高性能PUCCH format 2 解碼。當 LTE 達到最大下行鏈路 2.2 Gbps 的吞吐量、上行鏈路 1.1 Gbps 的吞吐量時(shí),BCP 可減輕大約 15 GHz 的DSP MIPS。對于 WCDMA 而言,最大下行鏈路吞吐量可達 800 Mbps,最大上行鏈路吞吐量達 400 Mbps。
圖 5 - BCP 體系架構
在 BCP 內部,數據可通過(guò)一個(gè)內部交換結構從一個(gè)子模塊流入另一個(gè)子模塊。分組 DMA 流量管理器可通過(guò) 128 位的 BCP 導航器或直接 I/O 接口將流量從 BCP 進(jìn)行輸入與輸出路由。BCP 以分組為單位進(jìn)行數據處理,并能同時(shí)處理不同的標準。當將任務(wù)請求發(fā)送至 BCP 時(shí),該任務(wù)首先被置入 BCP 導航器隊列中。BCP 調度程序依據任務(wù)優(yōu)先級選擇需要處理的任務(wù)。接著(zhù),由子模塊處理該任務(wù)。最后,可將 BCP 結果寫(xiě)入緩沖器,并將描述符置入完整的隊列上有待進(jìn)一步處理。因為極少需要軟件的介入,因此對 DSP 的周期需求顯著(zhù)減少,同時(shí) LTE 處理時(shí)延也會(huì )大幅降低。
我們在此將介紹另一種可簡(jiǎn)化 DSP 處理需求的方法,通過(guò)諸如連續或并行干擾消除(SIC 或 PIC)等高級接收機技術(shù)來(lái)提升接收機的 MIMO 性能。這些算法需要功能強大的比特率協(xié)處理器才能高效地實(shí)現。解碼算法的迭代特征要求對數據進(jìn)行多次解碼、處理、重新編碼和解碼,這對一般普通的系統而言可謂巨大的計算負擔,但對于 TCI6618 卻能輕松處理。
采用 TI 多標準基站 SoC 實(shí)現性能、效率與差異化的全面提升 2011 年 2 月
12
Turbo PIC/SIC 的性能改進(jìn)意義重大。例如,在 2x2 MIMO 方案中,一個(gè)調制為 QPSK 的典型的城域信道中,turbo PIC/SIC 能產(chǎn)生超過(guò) 3 dB 的信噪比 (SNR) 性能增益,從而與一般的接收機方法相比可提升高達 40% 的頻譜利用率。這不僅對運營(yíng)商的意義重大,同時(shí)也是 TCI6618 與其他產(chǎn)品的重要差別點(diǎn)。
圖 6 顯示了 Turbo 干擾消除的數據流。BCP 和 FFTC 可從反饋路徑分擔絕大多數的 Turbo 均衡周期。
圖 6 - Turbo 干擾消除數據流
控制信道解碼器
作為 LTE 物理上行鏈路控制信道,PUCCH 可承載上行鏈路的控制信息,例如調度請求、確認、重傳請求、信道狀態(tài)信息以及信道質(zhì)量指示 (CQI) 等信息。信道信息解碼會(huì )消耗很大的處理資源。(見(jiàn)圖 3)
PUCCH CQI 通過(guò) Reed Muller (20, A) 模塊代碼進(jìn)行編碼。各種不同類(lèi)型的算法均可對此信息進(jìn)行解碼。一種非常實(shí)用的基于 MRC 的算法可在軟件內實(shí)施,但其性能不高。BCP 針對 PUCCH format 2、2a、2b 實(shí)現了高級的聯(lián)合信道均衡和解碼算法。這與其他更為基礎性的算法相比,可實(shí)現更高的性能。圖 7 顯示了分別采用 TCI6488 和 TCI6618 的實(shí)施周期比較。在該例中,我們對帶 5 個(gè)資源模塊的系統進(jìn)行了仿真,每個(gè)系統均有 12 個(gè) UE,并且使用 Reed Muller (20, 13) 進(jìn)行編碼。在具備雙天線(xiàn)的情況下,對于從 DSP 內核上的軟件到硬件加速器的傳輸處理中,BCP 承擔了 98% 的總 PUCCH format 2 處理量。
與典型算法相比,使用聯(lián)合檢測算法能將信噪比 (SNR) 性能提高 1 到 3 分貝。這種增強的性能不僅將顯著(zhù)改進(jìn)鏈路預算,而且還能減少 UE 的干擾,并提高下行頻譜利用率,從而提高整個(gè) LTE 系統的性能,以為移動(dòng)用戶(hù)帶來(lái)更精彩的體驗。
全面集成 —— TCI6618
除了 BCP 協(xié)處理器無(wú)與倫比的性能外,TCI6618 還添加了額外的 FFTC 和TCP3d 協(xié)處理器,能夠實(shí)現 SoC 功能的完美平衡。因此,在 6 個(gè)迭代中,FFTC 的總吞吐量為 1,908 Mbps,TCP3d 的總吞吐量則為 582 Mbps。與 TCI6616 相比,TCI6618 憑借均衡 CPU 內核和協(xié)處理器 將 LTE 的能力提升了 2 倍以上。TCI6618 通過(guò) 2x2 MIMO 天線(xiàn)配置且利用高級接收機算法,可以支持兩個(gè) 20MHz 的 LTE區,下行吞吐量總計可達 300Mbps,而上行吞吐量總計則可達 150Mbps。
圖 7 - TCI6618 可實(shí)現高級 PUCCH 接收機
圖 8 - TCI6618 方框圖
14
憑借 KeyStone 架構、高級 C66x 內核以及新型 BCP 等高吞吐量加速器,TCI6618 與此前系列的 SoC 器件相比,可實(shí)現顯著(zhù)的性能提升。圖 9 顯示了以圖 3 為基礎而生成的柱狀圖,闡述了 TCI6488 與 TCI6618 兩者之間在 DSP 周期方面的比較結果。運行條件仍然是 20 MHz 的 LTE、2X2 MIMO、150 Mbps 的下行吞吐量以及 75 Mbps 的上行吞吐量。
圖 9 - TCI6618 在 LTE 上的性能飛躍
我們從該圖中看到,大約有 90% 的 TCI6488 DSP 處理任務(wù)被移至協(xié)處理器,從而實(shí)現了數量級的改進(jìn)!
圖 10 顯示了 LTE 下行處理 (PDSCH) 的詳細結構圖,其中使用協(xié)處理器承擔了幾乎 95% 的處理任務(wù)。
圖 10 - TCI6618 中的 PDSCH 處理
采用 TI 多標準基站 SoC 實(shí)現性能、效率與差異化的全面提升 2011 年 2 月
圖 11 顯示了 LTE 上行鏈路方框圖及相關(guān)的協(xié)處理,其中大約 90% 的處理均由硬件加速器負責。
這些圖清晰地表明,BCP 可顯著(zhù)提高 LTE 的性能。由于所有比特率處理均被自動(dòng)路由到 BCP,因而可大大簡(jiǎn)化軟件設計并降低時(shí)延。在這樣的數據速率(150 Mbps 的下行/ 75 Mbps 的上行)下運行,處理時(shí)延還不足 70 微秒。
BCP 不僅可以為 LTE 實(shí)現上述優(yōu)勢,而且也能為 WCDMA 分擔比特率處理任務(wù)。與針對碼片級擴頻/解擴的 RAC 與 TAC 結合使用,可實(shí)現 HSDPA 信道幾乎完全在硬件中處理。圖 12 顯示了 TCI6618 中的 HS-PDSCH 信號處理鏈。
圖 12 - TCI6618 中的 HSDPA HS-PDSCH 處理
16
TCI6618 能夠支持如下方案:具備 6 個(gè)使用 2x2 MIMO 的 HSDPA 單元,且每個(gè)單元的下行吞吐量為 42 Mbps。在該例中,有超過(guò)相當于 9 GHz 的 DSP處理任務(wù)被分配到專(zhuān)為 HS-PDSCH 信道設計的硬件中處理。
同樣,對于 WCDMA 上行信道處理,圖 13 顯示了 HSUPA E-DPDCH 處理的信號鏈與周期分布。
圖 13 - TCI6618 中的 HSUPA E-DPDCH 處理
結論 業(yè)界最佳的 TMS320TCI6618 與 TMS320TCI6616 SoC 經(jīng)過(guò)精心設計,可支持無(wú)線(xiàn)數據的發(fā)展變革,以及從以語(yǔ)音為中心到以數據為中心的處理的演變過(guò)度。新的比特率協(xié)處理器 (BCP) 及 KeyStone 架構可為無(wú)線(xiàn)基站提供可實(shí)現最高性能的 SoC。集成定點(diǎn)與浮點(diǎn)功能的 C66x 內核能夠為市場(chǎng)上功能最強大的 DSP 提供系統所需的靈活性。TI 借助多年來(lái)在無(wú)線(xiàn)基站基礎局端領(lǐng)域積累的廣博的專(zhuān)業(yè)知識和豐富的系統和現場(chǎng)經(jīng)驗成就了卓越的設計方法,能夠實(shí)現業(yè)界最可靠、最高級的解決方案。在基于協(xié)處理器實(shí)現的加速功能和在 DSP 內核中實(shí)現的靈活處理功能之間,TMS320C6618/6 架構實(shí)現了完美的平衡,不僅能夠為多樣化的基站市場(chǎng)實(shí)現所需的差異化功能,而且還能繼續幫助備選解決方案實(shí)現巨大的性能改進(jìn)。
評論