Xilinx UltraScale?:為您未來(lái)架構而打造的新一代架構
UltraScale架構與Vivado™設計套件結合使用可提供如下這些新一代系統級功能:
本文引用地址:http://dyxdggzs.com/article/147542.htm 針對寬總線(xiàn)進(jìn)行優(yōu)化的海量數據流,可支持數Tb級吞吐量和最低時(shí)延
高度優(yōu)化的關(guān)鍵路徑和內置高速存儲器,級聯(lián)后可消除DSP和包處理中的瓶頸
增強型DSP slice包含27x18位乘法器和雙加法器,可以顯著(zhù)提高定點(diǎn)和IEEE 754標準浮點(diǎn)算法的性能與效率
第二代3D IC系統集成的晶片間帶寬以及最新3D IC寬存儲器優(yōu)化接口均實(shí)現階梯式增長(cháng)
類(lèi)似于ASIC的多區域時(shí)鐘,提供具備超低時(shí)鐘歪斜和高性能擴展能力的低功耗時(shí)鐘網(wǎng)絡(luò )
海量I/O和存儲器帶寬,用多個(gè)硬化的ASIC級100G以太網(wǎng)、Interlaken和PCIe® IP核優(yōu)化,可支持新一代存儲器接口功能并顯著(zhù)降低時(shí)延
電源管理可對各種功能元件進(jìn)行寬范圍的靜態(tài)與動(dòng)態(tài)電源門(mén)控,實(shí)現顯著(zhù)節能降耗
新一代安全策略,提供先進(jìn)的AES比特流解密與認證方法、更多密鑰模糊處理功能以及安全器件編程
通過(guò)與Vivado工具協(xié)同優(yōu)化消除布線(xiàn)擁塞問(wèn)題,實(shí)現了90%以上的器件利用率,同時(shí)不降低性能或增大時(shí)延
系統設計人員將這些系統級功能進(jìn)行多種組合,以解決各種問(wèn)題。下面的寬數據路徑方框圖可以很好地說(shuō)明這一問(wèn)題。見(jiàn)圖3.

圖中,數據速率高達Tbps的數據流從從左側流入再從右側流出。系統必須在左右兩側的I/O端口之間傳輸數據流,同時(shí)還要執行必要的處理工作??梢酝ㄟ^(guò)高速串行收發(fā)器來(lái)進(jìn)行I/O傳輸,運行速率高達數Gbps。一旦數Gbps的串行數據流進(jìn)入器件,就必須扇出(fan out),以便與片上資源的數據流、路由和處理能力相匹配。
Tb級系統的設計挑戰:時(shí)鐘歪斜與海量數據流
舉一個(gè)現實(shí)的實(shí)例,假設左側和右側I/O端口的帶寬為100Gb/s。這意味著(zhù)片上資源也必須要處理至少100Gb/s的流量。設計人員一般采用512至1024位的寬總線(xiàn)或數據路徑來(lái)處理相關(guān)的數據吞吐量,產(chǎn)生一個(gè)與片上資源功能相匹配的系統時(shí)鐘。如果線(xiàn)速提高到400Gb/s,那么總線(xiàn)寬度達到1024至2048位也并不少見(jiàn)。
現在考慮一下這類(lèi)總線(xiàn)的時(shí)鐘要求。在UltraScale架構推出之前,高系統時(shí)鐘頻率運行會(huì )使這些海量數據路徑上的時(shí)鐘歪斜程度增大,甚至達到整個(gè)系統時(shí)鐘周期的將近一半。時(shí)鐘歪斜幾乎占用一半的時(shí)鐘周期,這種情況下設計方案需要依靠大量流水線(xiàn)才有可能達到目標系統性能。只剩下一半的時(shí)鐘周期可用于計算,因此得到可行解決方案的幾率就會(huì )很低。大量使用流水線(xiàn)不僅會(huì )占用大量寄存器資源,而且還會(huì )對系統的總時(shí)延造成巨大影響,這也再次證明了這種方法在當今的高性能系統中不可行。
UltraScale架構提供類(lèi)似ASIC時(shí)鐘功能
多虧UltraScale架構提供類(lèi)似ASIC的多區域時(shí)鐘功能,使得設計人員現在可以將系統級時(shí)鐘放在整個(gè)晶片的任何最佳位置上,從而使系統級時(shí)鐘歪斜降低多達50%。將時(shí)鐘驅動(dòng)的節點(diǎn)放在功能模塊的幾何中心并且平衡不同葉節點(diǎn)時(shí)鐘單元(leaf clock cell)的時(shí)鐘歪斜,這樣可以打破阻礙實(shí)現多Gb系統級性能的一個(gè)最大瓶頸。系統總體時(shí)鐘歪斜降低后,就無(wú)需再使用大量流水線(xiàn),并可消除隨之而來(lái)的時(shí)延問(wèn)題。UltraScale架構中類(lèi)似于A(yíng)SIC的時(shí)鐘功能不僅能移除時(shí)鐘布置方面的限制,還能在系統設計中實(shí)現大量獨立的高性能、低歪斜時(shí)鐘源。這與前幾代可編程邏輯器件中所采用的時(shí)鐘方案完全不同。從系統設計人員的角度出發(fā),這種解決方案能輕松解決時(shí)鐘歪斜問(wèn)題。
從容應對海量數據流挑戰
極高性能應用一般采用寬總線(xiàn)或寬數據路徑來(lái)匹配路由到片上處理資源的數據流。然而采用寬總線(xiàn)來(lái)擴展性能時(shí),除了要簡(jiǎn)單處理時(shí)鐘歪斜問(wèn)題外,還要應對一系列自身挑戰。眾所周知,同類(lèi)競爭架構經(jīng)證實(shí)其適用于高性能設計的布線(xiàn)資源非常有限且缺乏靈活性。如果FPGA的互連架構性能較低,那么用它來(lái)實(shí)現100Gb/s吞吐量的應用時(shí),需要將數據總線(xiàn)提升到1536至2048位的寬度。
盡管更寬的總線(xiàn)實(shí)現方案可以降低系統時(shí)鐘頻率,但由于缺乏支持寬總線(xiàn)系統所需的布線(xiàn)資源,因此會(huì )產(chǎn)生嚴重的時(shí)序收斂問(wèn)題。而且有些FPGA廠(chǎng)商采用的是過(guò)時(shí)的模擬退火布局布線(xiàn)算法,不考慮擁塞程度和總線(xiàn)路長(cháng)度等全局設計指標,因此會(huì )進(jìn)一步加劇時(shí)序收斂問(wèn)題。這樣,設計人員就不得不進(jìn)行多方面權衡,包括降低系統性能(通常不可取);使用大量流水線(xiàn),不惜增大時(shí)延;或者降低可用器件資源利用率。在任何情況下,經(jīng)證明這些解決方案都是不佳或存在欠缺的方案。最重要的是,傳統FPGA中布線(xiàn)資源(用于滿(mǎn)足100Gb/s應用的要求)的局限性幾乎可以說(shuō)明它們不可能適用新一代多Tb應用的要求,即便能適用,但器件的利用率會(huì )非常低,時(shí)延極高。
存儲器相關(guān)文章:存儲器原理
評論