<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > 使用Virtex-5 系列FPGA 獲得更高系統性能

使用Virtex-5 系列FPGA 獲得更高系統性能

作者: 時(shí)間:2007-09-10 來(lái)源:網(wǎng)絡(luò ) 收藏
Virtex-5 器件包括基于第二代高級硅片組合模塊 (ASMBL) 列的多 FPGA 系列。集成了為獲得最佳性能、更高集成度和更低功耗設計的若干新型元件,Virtex-5 器件達到了比以往更高的系統性能水平。要獲得最佳系統性能,就必須均衡組合邏輯結構、片上 RAM、DSP 模塊和 I/O 這些高性效比的 FPGA 組件。本文以新型 ExpressFabric 技術(shù)為重點(diǎn),說(shuō)明用 Virtex-5 系列構建模塊所能達到的性能水平。本文主要描述這項新技術(shù)的主要功能,包括新型 6 輸入 LUT。本文還介紹了提高邏輯及算術(shù)功能性能的量化示例,同時(shí)介紹片上 RAM、DSP 模塊和 I/O 的其他增強項。

有潛可挖的性能

據基于客戶(hù)設計的性能基準測試顯示,與前一代 Virtex-4 器件相比,Virtex-5 系列的
ExpressFabric 技術(shù)平均提高 30% 的性能,這大約相當于兩個(gè)等級。

Virtex-5 系列是高性能設計的選擇;其邏輯結構和硬 IP 模塊可以在 550 MHz 時(shí)鐘速率下運行。例如,其邏輯結構中的許多功能都有能力在這一時(shí)鐘速率下運行,如計
數器、加法器以及 LUT 結構的器 (RAM/ROM)。硬 IP 模塊(器和 DSP)也是為了在同樣下運行而設計的。

ExpressFabric 技術(shù)

新型 ExpressFabric 技術(shù)以使用對角對稱(chēng)互連模式的 6 輸入 LUT 和布線(xiàn)為基礎。

6 輸入 LUT 架構

查找表 (LUT)、特別功能(如進(jìn)位鏈和專(zhuān)用復用器)和觸發(fā)器 (FF) 的組合以及連接這
些元件的方法決定著(zhù)實(shí)現邏輯及算術(shù)功能的性能和效率。

Virtex-5 系列 ExpressFabric 技術(shù)是在 Xilinx 多年經(jīng)驗的基礎上演進(jìn)的一步。自從二十世紀八十年代中期推出和生產(chǎn)第一款 FPGA 以來(lái),大多數 FPGA 都是以相同的基礎架構為基礎,即 4 輸入 LUT。過(guò)去,所有 FPGA 的一個(gè)共同特點(diǎn)是,需要四個(gè)以上輸入的功能必須使用若干 LUT 和/ 或復用器的組合才能實(shí)現。

Virtex-5 系列是第一個(gè)提供具有完全獨立(非共享)輸入的真正 6 輸入 LUT 的 FPGA。這一點(diǎn)帶來(lái)了一些令人矚目的優(yōu)勢。為了提高邏輯結構的性能,至關(guān)重要的是要通過(guò) LUT 盡量縮短關(guān)鍵路徑延遲。

LUT 的輸入架構是決定性因素。65 nm 的 6 輸入 LUT 實(shí)現了關(guān)鍵路徑延遲與晶片設計尺寸之間的精妙平衡,如圖1 所示。

使用較寬的 LUT 輸入,關(guān)鍵路徑延遲縮短了,但在 6 輸入以上 LUT 中,輸入數越遠離6 的倍數,關(guān)鍵路徑延遲就越大。另一方面,對于 6 輸入以上 LUT 來(lái)說(shuō),由于寬輸入LUT 的使用效率低,晶片設計尺寸也增大了。

Virtex-5 系列在邏輯架構上也有所不同。表1 概述了 Virtex-4 與 Virtex-5 系列可配置邏輯塊 (CLB) 之間的區別。

為了更好地理解新 Virtex-5 系列架構引入的變化,有必要簡(jiǎn)要概述 Virtex-4 的架構。

Virtex-4 系列的基本邏輯元件由一個(gè) 4 輸入 LUT 和一個(gè)觸發(fā)器及其他元件(如一個(gè)功
能擴展器和一個(gè)算術(shù)單元)組成。功能擴展器的作用是允許構建較大的 LUT 結構(如
5 輸入或 6 輸入 LUT)。在 RAM 模式下,Virtex-4 LUT 可實(shí)現一個(gè) 16 位元件和一個(gè) 16 位移位寄存器,甚至還能實(shí)現一個(gè)可以在運行中改變其內容的可加載 LUT。

Xilinx FPGA 特有的這種分布式 RAM 模式可提供效率很高的小型存儲器。

與過(guò)去的 Xilinx FPGA 系列一樣,Virtex-5 SLICEL 可以用專(zhuān)用的進(jìn)位鏈實(shí)現邏輯功
能、寄存器和算術(shù)功能。請見(jiàn)圖2。

稍復雜的 SLICEM 增加了用 LUT 實(shí)現分布式 RAM 和移位寄存器 (SRL) 的功能。
新型 6 輸入 LUT 另有一個(gè)輸出端,可用來(lái)初始化進(jìn)位鏈或者將 6 輸入 LUT 變成兩個(gè)共用輸入端的 5 輸入 LUT。請見(jiàn)圖3。

6 輸入 LUT 帶來(lái)的幾點(diǎn)好處:

由于它直接在 LUT 中實(shí)現較寬的功能,使寄存器之間的邏輯級數減少,從而提高
了性能。
它實(shí)現的邏輯顯著(zhù)大于四輸入 LUT。
較大 LUT 減少了所需互連(布線(xiàn)資源)量,從而降低了功耗。

Virtex-5 系列 SLICEM LUT 還提供了其他好處:
分布式 RAM 的新長(cháng)寬比:每個(gè) LUT 都可以配置成 64 x 1 或 32 x 2 分布式 RAM。
給設計人員帶來(lái)的好處是,能夠以高得多的密度和以及更大的靈活性實(shí)現分布
式 RAM。
更長(cháng)的 SRL 鏈:一個(gè) LUT 即可支持一個(gè) 32 位的 SRL。因此,一個(gè) Slice 即可實(shí)現一個(gè)多達 128 位的移位寄存器,與過(guò)去的架構相比,顯著(zhù)節約了面積并減少了布
線(xiàn)資源。只有 Xilinx 器件中才有移位寄存器這種功能。Xilinx ISE? 軟件封裝機自
動(dòng)封裝兩個(gè)共用尋址但不同數據的 16 位 SRL。換言之,如果應用需要,在一個(gè)
Slice 中即可實(shí)現 16 位長(cháng)和 8 位寬的移位寄存器。

布線(xiàn)和互連架構

隨著(zhù)處理技術(shù)的進(jìn)步,互連時(shí)序延遲可占關(guān)鍵路徑延遲的 50% 以上。專(zhuān)為 Virtex-5
系列開(kāi)發(fā)的新型對角對稱(chēng)互連模式能以較少中繼段到達較多地點(diǎn),從而提高性能。這
種新模式允許在 2 到 3 個(gè)中繼段之內制作更多邏輯連接。而且,更規則的布線(xiàn)模式使
Xilinx ISE 軟件可以更容易地找到最佳布線(xiàn)。所有互連功能對于 FPGA 設計人員都是透
明的,但卻能轉化為更高的整體性能和更容易的設計可布線(xiàn)性。從本質(zhì)上說(shuō),Virtex-
5 系列的互連模式可根據距離提供快速、可預見(jiàn)結果的布線(xiàn)。

圖4 比較了 CLB 中一個(gè)源寄存器引起的延遲,該 CLB 用于驅動(dòng)一個(gè) LUT,這個(gè) LUT
與周邊一個(gè) CLB 中的另一寄存器封裝在一起,其目的是衡量布線(xiàn)延遲增大對 Virtex-4
和 Virtex-5 系列兩種架構的影響。


設計示例

下列示例詳細說(shuō)明了新型 6 輸入 LUT 架構的優(yōu)點(diǎn)。

復用器

最簡(jiǎn)單的示例之一是復用器。一個(gè) 4 輸入 LUT 可以實(shí)現一個(gè) 2:1 的 MUX。具有兩個(gè)以上輸入的每種復用器都需要額外的邏輯資源。在 Virtex-4 架構中,一個(gè) 4:1 的 MUX 需要兩個(gè) 4 輸入 LUT 和一個(gè) MUXF?,F在使用新型 6 輸入 LUT,用一個(gè) LUT 即可實(shí)現這個(gè) 4:1 的 MUX。在 Virtex-4 器件中,一個(gè) 8:1 的 MUX 需要四個(gè) LUT 和三個(gè) MUXF。

使用新型 Virtex-5 系列架構,只需要兩個(gè) 6 輸入 LUT,因而性能和邏輯利用率更高。請見(jiàn)圖5。

分布式 RAM 和移位寄存器

分布式存儲功能 (LUT RAM) 從幾個(gè)方面受益于較大的 LUT。新的長(cháng)寬比可顯著(zhù)提高小
型存儲功能的封裝密度,從而產(chǎn)生顯著(zhù)的性能效益。請見(jiàn)圖6。

算術(shù)功能

在 Virtex-5 系列架構中實(shí)現的算術(shù)功能也有幾項改進(jìn):

支持三進(jìn)制加法(使用一個(gè)進(jìn)位鏈)
復雜進(jìn)位啟動(dòng)邏輯
用于初始化進(jìn)位功能的“自由”地線(xiàn)或 VCC

以路徑延遲衡量的算術(shù)功能性能顯著(zhù)改善,如圖7 所示。

功能模塊的性能優(yōu)勢

表2 所示為 Virtex-4 與 Virtex-5 系列之間的邏輯和算術(shù)功能性能比較。所示特性是針對各器件系列的最高速度等級。各設計是通過(guò) ISE 8.1i 軟件運行的。

Block RAM

Virtex-5 系列的 Block RAM 基址大小已經(jīng)從 Virtex-4 系列的 18 Kbit 增加到 36 Kbit。

這就使得在 Virtex-5 器件中構建較大存儲器陣列更為容易。另外,可以將 36 Kb 的
Block RAM 用作兩個(gè)獨立的 18 Kbit Block RAM ;因此,構建多個(gè) 18 Kbit 的或更小的片上 RAM 陣列實(shí)質(zhì)上不會(huì )有任何問(wèn)題。

Virtex-5 系列的 Block RAM 可在簡(jiǎn)單雙端口模式下運行,從而有效地加倍 Block RAM的帶寬。簡(jiǎn)單雙端口模式允許將 Virtex-5 系列的 Block RAM 寬度擴展到 32 位以上,每個(gè) Block RAM 可高達到 72 位。

新型(即增強)Block RAM 的功能包括:

帶有可選糾錯回寫(xiě)功能的集成 64 位 ECC
硬編碼同步 FIFO 選項
支持 FIFO 可達單塊寬度 72 位
雙端口總寬度可達 x36
簡(jiǎn)單雙端口寬度可達 x72
Block RAM 中的新型電源管理電路:在每個(gè) 18K 的塊內;如果使用 9K 或以下,
另一半自動(dòng)關(guān)閉(減少約 50%)
內建級聯(lián)邏輯,允許將相鄰的 Block RAM 級聯(lián)成一個(gè) 64Kx1 的 RAM
Block RAM 運行頻率高達 550 MHz,可提供比 500 MHz 的 Virtex-4 FPGA 更高的性能水平

DSP

Virtex-5 系列采用了 DSP48E Slice,這種新型 DSP Slice 與 Virtex-4 FPGA 中的
DSP48 Slice 相比有重大提升:

增加了乘法器寬度:Virtex-5 的 DSP48E Slice 以 25 x 18 位的乘法器為基礎(與
Virtex-4 器件中的 18 x 18 位形成對比)。增加到 25 x 18 位可以減少級聯(lián)的級數,
從而提高總體性能和使用率。

浮點(diǎn)運算是使用較強乘法能力的一種應用,這種運算使用 24 x 24 位的無(wú)符號乘法
器進(jìn)行單精度浮點(diǎn)乘法運算。兩個(gè) DSP48E Slice 構建一個(gè) 24 x 24 位無(wú)符號乘法
器,這是 Virtex-4 DSP48 Slice 所需數量的一半。支持單精度浮點(diǎn)運算的實(shí)際上是
兩個(gè) DSP48E Slice 所提供的 35 x 25 位能力的一個(gè)子集。在 Virtex-4 器件中,兩
個(gè) DSP48 Slice 創(chuàng )建一個(gè) 35 x 18 位乘法器;而四個(gè) DSP48 Slice 創(chuàng )建一個(gè) 24 x 24位無(wú)符號乘法器,其中一個(gè) 24 x 24 位無(wú)符號乘法器是一個(gè)子集。
獨立的 C 寄存器:在 Virtex-5 器件中,可用于 DSP48E Slice 的信號數量增加了,因而允許使用獨立的 C 寄存器。這使 DSP 算法更為靈活且更容易實(shí)現。
邏輯單元的功能性:在 Virtex-5 器件中,加法器的級已經(jīng)擴展到可以支持邏輯功
能。所支持的部分邏輯功能有:按位“異或”功能、按位“異或非”功能、按位“與”功能以及當第一級乘法器旁路時(shí)的按位“非”功能。
運行頻率高達 550 MHz 的 DSP48E Slice:可提供比 500 MHz 的 Virtex-4 FPGA更高的性能水平。

并行 I/O

使 FPGA 實(shí)現高速內部運行只完成了任務(wù)的一半。最高系統性能需要 FPGA 與其他系
統組件之間的高性能互連。

Virtex-5 系列的 SelectIO 技術(shù)包含 Virtex-4 器件中的許多熱門(mén)功能,如支持單端與差分功能的 ChipSync 技術(shù)和數控阻抗 (DCI)。

增強項包括:
每插槽 40 個(gè) I/O:這是從 Virtex-4 器件的每槽 64 個(gè) I/O 減少后的數量,因此可以使間隔尺寸更小。
多達 1,200 個(gè)用戶(hù) I/O:其中每個(gè) I/O 中都有 ChipSync 技術(shù)。
ODELAY:在 Virtex-4 系列的 ChipSync 邏輯中,為便于時(shí)鐘數據對齊,在所有輸
入端上都提供了可編程的 IDELAY 元件。在 Virtex-5 系列中,可對模塊進(jìn)行編程
以提供輸入或輸出延遲。輸出延遲對解決 PCB 偏移問(wèn)題很有用。

Virtex-5 系列 I/O 的性能是單端每秒 800 Mb,差分每秒 1.25 Gb。

LVDS 帶寬

借助其更高性能的差分 I/O 功能和更大的封裝,Virtex-5 器件有能力實(shí)現每秒 600 x
1.25 Gb = 750 Gb 的流量。

存儲器接口

每個(gè) I/O 中內建的 ChipSync 技術(shù)使高性能存儲器接口具有無(wú)與倫比的可靠性。它針對加大的設計余量提供了可調整的數據時(shí)鐘校準,其分辨率為 75 ps。這種調整可以補
償系統變化,如處理過(guò)程、電壓和溫度的變化。

Virtex-5 器件可以為最新的存儲架構實(shí)現更寬和更快的接口。請見(jiàn)表3。

性能增強技術(shù)

Virtex-5 FPGA 采用了一種低偏移、低抖動(dòng) 的 550 MHz 差分時(shí)鐘結構,從而可確保時(shí)鐘與數據信號的一致性。新型時(shí)鐘管理模塊將針對精密時(shí)鐘合成的數字時(shí)鐘管理器
(DCM) 與針對減少抖動(dòng)的鎖相環(huán) (PLL) 結合起來(lái),從而顯著(zhù)提高了靈活性。

由 ASMBL 專(zhuān)利技術(shù)和大量 PWR/GND 引腳促成的稀疏鋸齒形 (Sparse chevron) 封裝技術(shù)和倒裝芯片組裝技術(shù),實(shí)現了封裝和 PCB 電感最小化,從而提高了信號的完整性。片上有源信號終端技術(shù)為最佳化調整組件互連提供了數控阻抗 (DCI),同時(shí)極大地降低了系統的組件數和成本。有關(guān)詳情,請參閱白皮書(shū) WP247 《Virtex-5 系列的先進(jìn)封裝》,網(wǎng)址是:
http://www.xilinx.com/cn/bvdocs/whitepapers/wp247.pdf。

較低的每兆赫功耗在您的功率預算內提高了性能。在利用 65 nm 技術(shù)降低動(dòng)態(tài)功耗的
同時(shí),Virtex-5 FPGA 還用三柵極氧化層技術(shù)將靜態(tài)功耗降至最低。有關(guān)詳情,請參
閱白皮書(shū) WP246 《65 nm FPGA 功耗》,網(wǎng)址是:
http://www.xilinx.com/cn/bvdocs/whitepapers/wp246.pdf。

設計輸入方法和性能基準測試

為了進(jìn)一步評價(jià) Virtex-5 系列的性能改進(jìn),我們用 ISE 軟件實(shí)現了一組客戶(hù)設計。最
大的改進(jìn)是在具有眾多邏輯級數的設計上觀(guān)測到的。與 Virtex-4 FPGA 相比,新型
ExpressFabric 技術(shù)將這些設計的性能提高了高達 58%。將所有設計考慮在內,性能
平均提高了 30%,如圖8 所示。

本對比中使用的所有設計都是基于 RTL (VHDL 和 Verilog)的設計。其中幾個(gè)包含了
CORE Generator 軟件的 EDIF 格式網(wǎng)表,用來(lái)實(shí)現 FIFO 和存儲器。

合成過(guò)程使用了 XST,然后運行了 ISE 布局布線(xiàn),其難度等級設置為 HIGH。時(shí)鐘約
束以 5% 小量遞增迭代收緊,直到出現負松弛。

有關(guān)如何達到最佳性能的詳細信息和提示,請參閱白皮書(shū) WP218 《在 Virtex-4 FPGA中實(shí)現性能突破》的最后部分,網(wǎng)址是:
http://www.xilinx.com/cn/bvdocs/whitepapers/wp218.pdf。

結論

借助其新型 ExpressFabric 技術(shù)與其他較高性能的硬 IP 模塊和 I/O 的緊密結合,與上一代架構相比,Virtex-5 系列表現出了顯著(zhù)的性能提升。

如欲了解更多賽靈思技術(shù)文檔,請訪(fǎng)問(wèn)http://china.xilinx.com/china/documentation/



關(guān)鍵詞: 存儲 架構 速度 平臺

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>