基于 KeyStone DSP 的多核視頻處理技術(shù)
2.4 多內核間的協(xié)作與同步
當多個(gè)內核處理同一視頻通道時(shí),這些內核之間必須相互通信,才能實(shí)現對輸入數據的同步、分離或共享,合并輸出數據或者在處理過(guò)程中交換數據。附錄 A - 解碼器性能依賴(lài)闡述了將視頻處理功能劃分成多個(gè)內核的幾種算法。本文引用地址:http://dyxdggzs.com/article/166063.htm
并行處理法和流水線(xiàn)處理法是兩種常用的分區算法。并行處理的范例是兩個(gè)或兩個(gè)以上的內核可以處理同一輸入通道。必須有一個(gè)不受競態(tài)條件影響的機制在多個(gè)內核之間共享信息??蓪⑿盘枠擞脕?lái)保護全局區域免受競態(tài)條件的干擾。硬件需要支持阻塞性和非阻塞性信號標,以有效消除競態(tài)條件,即消除兩個(gè)內核同時(shí)占用同一存儲器地址的可能性。
如果使用流水線(xiàn)算法,一個(gè)或一個(gè)以上的內核可執行運算的第一部分,然后再將中間結果傳遞第二組內核繼續處理。由于視頻處理負載取決于處理的內容,因而這種傳遞機制可能面臨如下問(wèn)題:
• 如果一個(gè)以上的內核處理流水線(xiàn)的第一階段,那么第 N+1 幀可能先于第 N 幀被處理好。因此該傳遞機制必須能夠對輸出/輸入進(jìn)行排序。
• 即使流水線(xiàn)上的各內核總體是均衡的(在處理負載方面),但個(gè)別幀未必如此。該傳遞機制必須在不同的流水線(xiàn)階段之間提供緩沖,以使內核沒(méi)完成工作時(shí)不至于影響其他內核停滯等待。
• 如果算法要求流水線(xiàn)的兩個(gè)階段間能穩固實(shí)現緊密的鏈接(例如,為解決依賴(lài)性的問(wèn)題),則該機制就必須能夠支持緊密鏈接與松散鏈接。
2.5 多芯片系統
實(shí)時(shí)處理超級視頻 (SVGA)、4K 及更高分辨率,或處理 5 級 H.264HP可能需要不止一個(gè)芯片一起協(xié)作。要構建一個(gè)具有超高處理能力的雙芯片系統,擁有可連接兩個(gè)芯片的超快速總線(xiàn)至關(guān)重要。
第三部分描述了可滿(mǎn)足上述所有要求及難題的 KeyStone系列 DSP架構。
3.KeyStone DSP – TI 最新多內核處理器
TI KeyStone 架構描述了廣泛應用于視頻處理等要求高性能和高帶寬的系列多內核設備。圖 2 對 KeyStone DSP進(jìn)行了概括性描述。本章針對在第二部分中闡述的視頻處理硬件要求對 KeyStone DSP 特性進(jìn)行了介紹。
圖 2 KeyStone DSP 方框圖
特性 新 C6x 內核 - 頻率為 1GHz 的 8 個(gè)新型 C6x DSP 內核 - 浮點(diǎn)處理能力 - 性能:256 GMAC、128 GFLOPS 存儲器 - 每個(gè)內核配備32 KB L1PL1D - 每個(gè)內核配備 512 KB 局域 L2 - 4MB 共享 L2 存儲器 分組加速器 開(kāi)關(guān)結構和 EDMA3 外設 -帶以太網(wǎng)轉換器的 2x SGMII(數據/控制)– 4x SRIO,速率為 5 Gbps – 2x PCIe,2x TSIP – 16/32/64b DDR3 – EMIF-16、SPI、I2C、UART、GPIO 系統監控器 - JTAG -嵌入式跟蹤緩沖器-跟蹤端口 設備規格參數表 -功率:75 C 時(shí) 7.5 W ,105 C時(shí)為 9 W - 封裝尺寸:目標 24x24 - 40 nm 引腳工藝 - 引腳數為 841(全陣列) - 內核電壓:運用 SmartReflex 技術(shù),1GHz時(shí) 1V;800MHz 時(shí) 0.9V。 |
多內核視頻要求 | KeyStone 的功能特性能夠充分滿(mǎn)足要求 |
外部 I/O 接口 - 壓縮的視頻以太網(wǎng)接口 | 兩個(gè) SGMII 1G端口可支持適用于分包壓縮視頻的高比特率以太網(wǎng)接口。正如第二部分所述,典型的 HD 視頻需要高達 10 Mbps 的速率,以使以太網(wǎng)接口能夠支持多個(gè)壓縮視頻通道。此外,KeyStone DSP 還擁有分組加速器硬件子系統,可支持多個(gè) IP 地址且能為每個(gè)內核分擔分組處理負載。 |
外部 I/O 接口 - 原始數據接口 | KeyStone DSP 擁有兩個(gè)標準的PCI Express通道。假定總線(xiàn)利用率為 60%,每個(gè)通道需要承載 5G 字節,這足以傳輸 YUV 域中 1080i60 的 4 到 5 個(gè)通道、D1 的 24 個(gè)通道,或 QCIF 30 fps 的超過(guò) 300 個(gè)通道。此外,KeyStone DSP 還擁有四個(gè) SRIO 通道,其中每個(gè)通道可傳輸 5G 比特,從而使總線(xiàn)利用率為 60% 時(shí),其連接性能是之前的四倍。 |
外部 I/O 接口 - 語(yǔ)音處理 | 兩個(gè)電信串行接口端口 (TSIP) 可提供足夠的帶寬(以每通道 32.768/16.384/8.192 Mbps 的傳輸速率以及最高 1024 DS0 支持 2/4/8 個(gè)通道)來(lái)支持與視頻應用相關(guān)的語(yǔ)音處理。 |
處理能力 | 首次發(fā)布的 KeyStone DSP 擁有 8 個(gè)時(shí)鐘頻率為 1.25G 的內核,因而可提供 8G 個(gè)周期。8 個(gè)功能部件并行工作,每秒可執行 64G 次運算(浮點(diǎn)、定點(diǎn)和數據移動(dòng))。此外,這個(gè) KeyStone DSP 的新型 C66x 內核還可支持TI C64x+ DSP 內核的所有指令、TI C67x core 內核的所有指令,以及包含幾個(gè)支持四則運算和兩則運算的 SIMD 指令的其他指令。適用于操作矢量處理類(lèi)型的理論操作數量是 128G甚或 256G。這些 SIMD 指令可顯著(zhù)提高采用矢量處理的視頻處理算法(如運動(dòng)估算、轉換和量化算法等)的效率。 |
存儲器考慮事項 - 片上存儲器 | 每個(gè)內核都擁有 32KB 的 L1 數據存儲器和 32KB 的 L1 程序存儲器。每個(gè)都可配置為純 RAM 或 L1 高速緩存,抑或二者的結合。 每個(gè)內核均擁有 512KB 的 L2 專(zhuān)有存儲器,其中多達 256KB 可被配置為四通道的 L2 高速緩存。另外,KeyStone DSP 還擁有 4MB 的共享 L2 存儲器。 |
存儲器考慮事項 - 外部存儲器 | 支持高達 8GB 的 DDR3,模式為 1×16、1×32 和 1×64,高達 1600 MHz 的頻率可提供每秒高達 12.8GB 原始比特率。 |
存儲器考慮事項 - 多內核共享存儲器控制器 | 2×56 比特直接連接至外部存儲器接口 (EMIF) DDR。 2×256 比特直接連接至各個(gè) DSP。 適用于程序和數據的多重預取媒體流。 |
存儲器考慮事項 - DMA | 10 個(gè)傳輸控制器和 144 個(gè)增強型直接存儲器接入 (EDMA) 通道使得從外部存儲器讀寫(xiě)數據具有高效的資源利用率。 |
內核之間的同步與全局協(xié)作 | 全硬件支持 64 個(gè)獨立阻塞和非阻塞信號標,支持直接和間接請求。 |
內核之間的緊密與松散鏈接、數據和消息傳輸 | 多內核導航器是一個(gè)硬件隊列管理器,可控制 8,192 個(gè)隊列且擁有 6 個(gè)可傳輸消息的渠化 DMA 通道。導航器可支持數據和消息在緊密或松散鏈接的內核之間進(jìn)行傳遞。此外,導航器還能有助于提高數據從多個(gè)源傳輸至多個(gè)目的地的高效排序。 |
連接兩個(gè)芯片的快速總線(xiàn) | 四通道超鏈接總線(xiàn)可提供高達每通道 12.5Gbps、總計 50Gbps 的傳輸速率。 |
表 1 KeyStone DSP 和視頻處理要求(第一部分,共兩部分)
評論