采用TI多標準基站SoC實(shí)現性能、效率與差異化的全面提升
為進(jìn)一步改進(jìn)總體系統性能,滿(mǎn)足新一代 LTE 系統的要求,必須設計出具備良好均衡性且可擴展的架構,以便最大限度地發(fā)揮 SoC 的多內核計算性能。這就要求最大限度地提高系統的互連吞吐量,并將存儲器存取與數據傳輸時(shí)延降到最小。
通過(guò)對 LTE 要求的總處理周期進(jìn)行分析,我們發(fā)現通過(guò)增強 DSP 內核的信號處理能力,不僅能夠減少處理周期的總數量,而且還能增大系統容量、提升性能。最新推出的 C66x DSP 內核通過(guò)將 C64x+ 的乘/累加 (MAC) 能力銳升四倍可實(shí)現這一目標。此外,新內核還同時(shí)集成了定點(diǎn)與浮點(diǎn)功能,并可為矢量處理與矩陣處理提供新的指令。
如快速傅里葉變換 (FFT) 與快速傅里葉逆變換 (IFFT) 等特定函數需要在 LTE 信號鏈上的許多地方執行,并且用于在時(shí)域與頻域之間進(jìn)行數據轉換。FFT 與離散傅立葉變換 (DFT) 已屬成熟算法,因此它們有可能作為硬件加速的候選以用于釋放 CPU 周期,這樣 DSP 內核就可用于執行客戶(hù)差異化功能。
5
LTE 的上行與下行比特率處理及其他無(wú)線(xiàn)技術(shù)包含眾多標準算法,適用于調制、解調、交錯、解交錯、速率匹配、解速率匹配、加擾與去擾等運算。TI 新型比特率協(xié)處理器 (BCP) 是一種可為多種標準釋放所有比特率處理功能的加速器,它可大幅度提升系統容量,從而簡(jiǎn)化軟件編程、減少系統時(shí)延。
這些就是可以在 TCI6616 及 TCI6618 基站 SoC 中實(shí)現創(chuàng )新與性能飛躍提升的系統優(yōu)化機會(huì )的示例。
TI KeyStone 架構
KeyStone 多內核 SoC 架構是業(yè)界同類(lèi)架構中率先可提供基礎局端以確保所有內核都能得到充分利用的架構。KeyStone 可實(shí)現對所有處理內核、外設、協(xié)處理器及 I/O 的非阻塞訪(fǎng)問(wèn)??蓪?shí)現這類(lèi)多內核能力的部分 KeyStone 創(chuàng )新技術(shù)包括:多內核導航器、TeraNet、多內核共享存儲控制器 (MSMC) 及超鏈接。
TI 多內核導航器是一種基于分組的創(chuàng )新型管理器,能夠在提取不同子系統間連接的同時(shí),控制 8,192 個(gè)隊列。它可為實(shí)現通信、數據傳輸及工作管理提供統一接口。通過(guò)采用“一次性完成,零復制”的設計理念,多內核導航器能夠以更少的中斷及更低的軟件復雜度實(shí)現更高的系統性能。
舉例來(lái)說(shuō),多內核導航器能夠進(jìn)行任務(wù)調度,且在無(wú)需外部管理的情況下即能指示下一個(gè)空閑 DSP 內核讀取并處理任務(wù)。這樣通過(guò)提供下列功能,即可簡(jiǎn)化 SoC 軟件架構,進(jìn)而提升基站的性能:
動(dòng)態(tài)資源/負載共享
減輕與子系統間通信相關(guān)的 CPU 開(kāi)銷(xiāo)/延遲
基于硬件的任務(wù)優(yōu)先級排序
動(dòng)態(tài)負載平衡
針對所有 IP 模塊(軟件、I/O 及加速器)的通用通信方法
多內核導航器能夠在無(wú) CPU 干預的情況下控制數據流,可從移動(dòng)數據中釋放 CPU 周期并將片上通信速率提升至每秒 2,000 萬(wàn)條消息。此外,其還能夠使用更為簡(jiǎn)單的軟件架構以縮短開(kāi)發(fā)周期并提高資源利用率。
TeraNet 能夠提供層級交換結構,可在 SoC 內為數據傳輸提供超過(guò) 2 Tbit 的總帶寬。這樣幾乎可確保不會(huì )出現內核與協(xié)處理器沒(méi)有數據可處理的情況,從而使他們在任何需要的位置和時(shí)間都可以發(fā)揮其最大的處理功效。由于交換結構采用了層級架構而非扁平縱橫式結構,因此總體功耗能在空閑狀態(tài)下實(shí)現大幅度下降且能以最低時(shí)延實(shí)現高性能,從而充分滿(mǎn)足新一代基站的這種關(guān)鍵要求。
多內核共享存儲控制器 (MSMC) 是一種可增強性能的獨特架構。MSMC 可以讓內核在不占用任何 TeraNet 帶寬的情況下直接訪(fǎng)問(wèn)共享存儲器。MSMC 可以協(xié)調內核及其他 IP 模塊對共享存儲器的訪(fǎng)問(wèn),以避免發(fā)生存儲器爭用的情況發(fā)生。DDR3 外部存儲器接口 (EMIF) 可直接連接至 MSMC,從而降低因發(fā)生外部存儲器存取而導致的時(shí)延,并為基站應用提供所需的高速訪(fǎng)問(wèn)與支持。
6
超鏈接具有 50Gbps 的總吞吐能力,是一種互連機制,能夠以極少的協(xié)議實(shí)現與其它 KeyStone、FPGA 及 ASIC 器件的高速通信與連接。其可為主器件上的配套器件提供透明的存儲器映射訪(fǎng)問(wèn),從而不僅可大幅簡(jiǎn)化軟件編程,同時(shí)還能為 OEM 廠(chǎng)商提供實(shí)現可擴展解決方案的無(wú)縫路徑。
全新 DSP 內核
TCI66x SoC 解決方案包含性能顯著(zhù)增強的全新處理內核。其是業(yè)界首款同時(shí)集成了定點(diǎn)和浮點(diǎn)功能的基站 DSP 內核。增強的性能可幫助 OEM 廠(chǎng)商構建極富差異化功能的軟件,從而滿(mǎn)足高級操作人員的要求。
TMS320C66x 內核
作為 TI 的新一代定點(diǎn)及浮點(diǎn) DSP,新型 C66x 內核具備集成了 8 個(gè)功能單元和 64 個(gè)通用 32 位寄存器的高級 VLIW 架構。全新系列器件基于 TI 前代 C64x+ 內核架構之上,擁有屢獲殊榮的指令集架構和眾多功能強大的特性,如每個(gè)周期能夠執行 8 個(gè)指令,從而可實(shí)現高度的并行性能。
全新的 C66x DSP 內核實(shí)現眾多特性改進(jìn),其中包括:
原生浮點(diǎn)處理,可逐指令地與定點(diǎn)實(shí)現無(wú)縫協(xié)作。通過(guò)以業(yè)界領(lǐng)先的定點(diǎn) DSP 速度提供原生浮點(diǎn)支持,實(shí)現了浮點(diǎn)處理領(lǐng)域的重大進(jìn)步;
MAC 實(shí)現了 4 倍的性能提升,每周期可提供 32 個(gè) 16x16 位 MAC;
專(zhuān)為復雜算法、線(xiàn)性代數和矩陣運算而精心優(yōu)化;
全流水線(xiàn)雙精度浮點(diǎn)乘法器;
減少雙精度乘法時(shí)延。
所有這些改進(jìn)都能大幅提升 L1 和 L2 的總體處理性能。4G 基站解決方案具備 MIMO 和波束成形等算法,可充分利用多天線(xiàn)信號處理實(shí)現性能提升。這些算法通常需要矩陣逆轉技術(shù),從本質(zhì)上來(lái)說(shuō)非常容易遭受與定點(diǎn)處理相關(guān)的量化及擴展問(wèn)題的影響。這些多天線(xiàn)技術(shù)仍在不斷演進(jìn)發(fā)展,具備可幫助客戶(hù)實(shí)現差異化功能的實(shí)施靈活性至關(guān)重要。將最新的 C66x 增強功能用于矩陣運算和浮點(diǎn)支持,能夠同時(shí)顯著(zhù)提高系統的速度和準確度,從而為移動(dòng)電話(huà)用戶(hù)帶來(lái)更精彩的體驗。
采用 C66x 內核增強 MIMO 接收機
我們同時(shí)在 LTE 和 LTE-A 中采用了眾多高級接收機算法。例如,在 LTE-A 新技術(shù)中可實(shí)現更先進(jìn)的多用戶(hù) MIMO (MU-MIMO) 預編碼方案。此外,單用戶(hù) MIMO (SU-MIMO) 還可支持更高的數據速率。增強型 C66x 內核不僅可幫助設計團隊在上述領(lǐng)域實(shí)現差異化特性,而且最終還能幫助他們實(shí)現操作人員所需的高級特性。
7
MIMO 解碼在算法上非常復雜,往往需要使用客戶(hù) IP 來(lái)提升效率和性能。復雜度隨天線(xiàn)數量的增加而相應增加。雖然大多數專(zhuān)家都一致認為第二種傳輸天線(xiàn)至少在最近幾年都不會(huì )獲得廣泛使用,但當前的系統仍以 2xN(2 路傳輸,N 路接收)配置為主。實(shí)施 MIMO 接收機算法的方式有很多種,其中包括較低復雜側的線(xiàn)性 MMSE 和較高復雜端的球狀解碼。在 OEM 廠(chǎng)商測試不同算法的時(shí)候,進(jìn)行高效率的軟件實(shí)施使他們能夠在部署 LTE 系統的同時(shí)適配并測試不同的構想方案。這種高靈活性在基礎局端部署的最初幾年非常關(guān)鍵,直到新的網(wǎng)絡(luò )落實(shí),工程師才能更好地理解問(wèn)題所在。
C66x 架構具備擴展指令集,可用于加速 DSP 內核的 MIMO 處理。浮點(diǎn)可以實(shí)現高效的矩陣反轉算法,從而較定點(diǎn)實(shí)施相比能夠實(shí)現更高的性能,而且與硬件加速相比能夠實(shí)現更高的靈活性。通過(guò)充分發(fā)揮浮點(diǎn)功能和 4 倍的 MAC 性能改進(jìn),C66x DSP 內核中的 MIMO 處理量與前代 DSP 相比降低了 5 倍。
全新的加速功能
通過(guò)分析 LTE 和 WCDMA 系統要求,我們已確定了一些需要改進(jìn)的功能,并按重要性進(jìn)行如下排序:
FFT/IFFT/DFT
下行鏈路比特率處理
上行鏈路比特率處理
上行鏈路控制通道接收機
MIMO 接收機
WCDMA 傳輸碼片率 IQ 采樣處理 (TAC)
WCDMA 接收碼片率 IQ 采樣處理 (RAC)
此外,4G 較高的數據速率和高速 3G 系統都需要大量的改進(jìn)才能完成 turbo 解碼功能。
TCI6616 AccelerationPacs
為了更好地滿(mǎn)足高速發(fā)展的 3G 和 4G 市場(chǎng)需求,TI 為 TCI6616 開(kāi)發(fā)了眾多新的加速器。
傳輸碼片率協(xié)處理器 (TAC)
TAC 能為多達 256 個(gè)下行鏈路 WCDMA 用戶(hù)執行傳輸碼片率擴展運算。該加速器可將符號率處理的數據作為輸入,然后再將芯片擴展序列輸出到基站的各個(gè)天線(xiàn)輸出端。
TAC 能夠執行下列運算:
符號調制
開(kāi)環(huán)分集處理,其中包括空間時(shí)間傳輸分集 (STTD) 和時(shí)間交換傳輸分集 (TSTD)
8
閉環(huán)處理,其中包括閉環(huán)分集、用于 HSDPA 的 MIMO、下行鏈路功率控制、上行鏈路功率控制、隨機訪(fǎng)問(wèn)采集指示傳輸、E-DCH 相對授權和混合 ARQ 指示傳輸
各個(gè)通道的增益應用
支持壓縮模式
擴展和加擾
功耗測量
媒體流失調和延遲
波束成型
媒體流匯總
TCA 支持所有 WCDMA 下行鏈路通道:
P-SCH:主同步通道
S-SCH:次同步通道
P-CPICH:主通用導頻通道
S-CPICH:次通用導頻通道
P-CCPCH:主通用控制物理通道
PICH:傳呼指示器通道
AICH:采集指示器通道
HS-SCCh:高速共享控制通道
HS-PDSCH:高速物理下行鏈路共享通道
E-AGCH:E-DCH 絕對授權通道
E-RGCH:E-DCH 相對授權通道
E-HICH:E-DCH 混合 ARQ 指示器通道
MICH:MBMS 指示器通道
DPCH:專(zhuān)用物理通道
F-DPCH:部分專(zhuān)用物理通道
如 RNC 和 Node-B 之間的 NBAP(Node-B 應用部分)協(xié)議所示,TAC 可實(shí)現靈活的通道配置和重配置。
評論