Xilinx 16nm UltraScale+實(shí)現2至5倍的性能功耗比優(yōu)勢
臺積公司的16nm FinFET工藝與賽靈思最新UltraRAM和SmartConnect技術(shù)相結合,使賽靈思能夠繼續為市場(chǎng)提供超越摩爾定律的價(jià)值優(yōu)勢。
本文引用地址:http://dyxdggzs.com/article/201610/308338.htm賽靈思憑借其28nm 7系列全可編程系列以及率先上市的20nm UltraScale™系列,獲得了領(lǐng)先競爭對手整整一代優(yōu)勢,在此基礎上,賽靈思剛剛又推出了其16nm UltraScale+™系列器件??蛻?hù)采用該器件系列構建的系統相比采用賽靈思28nm器件所設計的類(lèi)似系統的性能功耗比可提升2至5倍。這些性能功耗比優(yōu)勢主要取決于三大方面:采用臺積電公司16FF+(即16nm FinFET Plus)工藝的器件實(shí)現方案、賽靈思的片上UltraRAM存儲器以及SmartConnect創(chuàng )新型系統級互聯(lián)-優(yōu)化技術(shù)。
此外,賽靈思還推出了其第二代Zynq®全可編程SoC。Zynq UltraScale多處理SoC (MPSoC) 在單個(gè)器件中完美集成了四核64位ARM® Cortex™-A53應用處理器、32位ARM Cortex-R5實(shí)時(shí)處理器、ARM Mali-400MP圖形處理器、16nm FPGA邏輯(帶UltraRAM)、眾多外設、安全性與可靠性特性、以及創(chuàng )新型電源控制技術(shù)。該新型Zynq UltraScale+ MPSoC為用戶(hù)提供了系統創(chuàng )建所需的一切,而且利用其打造出來(lái)的系統相比采用28nm Zynq SoC所設計的系統的性能功耗比提升5倍。
FINFET進(jìn)一步擴展 ULTRASCALE系列,使其具有額外的節點(diǎn)價(jià)值優(yōu)勢
賽靈思公司芯片產(chǎn)品管理與營(yíng)銷(xiāo)高級總監Dave Myron指出:“采用16nm UltraScale+系列,我們能夠創(chuàng )建出比摩爾定律通常提供給用戶(hù)的更高的額外節點(diǎn)價(jià)值優(yōu)勢。我們能滿(mǎn)足LTE Advanced與早期 5G無(wú)線(xiàn)、Tb級有線(xiàn)通信、汽車(chē)高級駕駛員輔助系統以及工業(yè)物聯(lián)網(wǎng)應用等各種下一代應用需求。UltraScale+系列使用戶(hù)能夠實(shí)現更大的創(chuàng )新,同時(shí)在各自的市場(chǎng)中保持領(lǐng)先競爭對手。”
憑借其UltraScale系列產(chǎn)品,賽靈思能夠同時(shí)通過(guò)兩個(gè)工藝節點(diǎn)提供器件,即臺積公司的20nm平面工藝(已經(jīng)發(fā)貨)和現在臺積公司的16FF+工藝(賽靈思預計將于2015年第四季度開(kāi)始發(fā)貨)。賽靈思將推出16nm UltraScale+系列的Virtex® FPGA與3D IC、Kintex® FPGA以及新型Zynq UltraScale+ MPSoC。
賽靈思公司新產(chǎn)品推出與解決方案市場(chǎng)營(yíng)銷(xiāo)總監Mark Moran表示,賽靈思決定于2013年開(kāi)始推出其20nm UltraScale系列,而不是等臺積公司的16FF+工藝問(wèn)世后才發(fā)布。這是因為在一些應用領(lǐng)域,早在一年半就迫切需要20nm器件——其比28nm具有更高的性能和容量。
Moran表示:“我們的整個(gè)產(chǎn)品系列在設計時(shí)充分考慮到市場(chǎng)需求。采用20nm UltraScale架構的器件的功能更適用于那些無(wú)需UltraScale+提供的額外性能功耗比優(yōu)勢的市場(chǎng)和最終應用中的新一代產(chǎn)品。既然知道16nm緊跟其后,所以我先構建了20nm FinFET。同時(shí)我們在20nm上進(jìn)了大量的架構修改(我們知道這是16nm的基礎),可以根據市場(chǎng)需要提高性能和價(jià)值水平。我們有客戶(hù)已經(jīng)著(zhù)手在我們目前提供的20nm器件上進(jìn)行開(kāi)發(fā),這樣只要16nm Ultra-Scale+器件一問(wèn)世,他們就可以快速進(jìn)行設計移植,進(jìn)而加速設計上市進(jìn)程。”
Myron補充說(shuō),眾多Virtex UltraScale+器件會(huì )與20nm Virtex Ultra-Scale器件實(shí)現引腳兼容,這樣,對需要額外性能功耗比優(yōu)勢的設計來(lái)說(shuō)易于升級。
Myron說(shuō):“從工具角度來(lái)說(shuō),20nm UltraScale和16nm UltraScale+器件看起來(lái)幾乎一樣。因此使用16nm UltraScale+器件還有一大優(yōu)勢,那就是提升性能功耗比使其很容易達到性能和功耗目標要求。”
Myron說(shuō)UltraScale+ FPGA以及3D IC相比28nm 7 系列FPGA,性能功耗比提升2倍。同時(shí),Zynq UltraScale+ MPSoC憑借其額外的集成異構處理功能,相比采用28nm Zynq SoC構建的類(lèi)似系統,性能功耗比提升5倍(如圖1所示)。

圖1 – 賽靈思16nm UltraScale+ FPGA和Zynq UltraScale+ MPSoC可為設計團隊提供額外的節點(diǎn)價(jià)值優(yōu)勢。
源于臺積公司16FF+工藝的性能功耗比優(yōu)勢
僅通過(guò)向16nm FinFET的工藝移植,賽靈思已推出了比28nm 7 系列器件的性能功耗比高出2倍的器件。Myron指出:“臺積公司的16FF+是一種極其高效的工藝技術(shù),這是因為其基本消除了此前采用平面晶體管實(shí)現的芯片工藝相關(guān)的晶體管電源泄漏情況。此外,我們還與臺積公司通力合作,共同優(yōu)化UltraScale+器件,以充分利用該新工藝技術(shù)。至少(僅從該新工藝技術(shù)的創(chuàng )新角度來(lái)說(shuō)),UltraScale+設計相比采用28nm 7系列器件實(shí)現的設計,性能功耗比提升兩倍以上。
如需了解有關(guān)賽靈思20nm UltraScale架構,以及FinFET相比平面晶體管工藝的優(yōu)勢的詳細說(shuō)明,敬請訪(fǎng)問(wèn):《賽靈思中國通訊第84期》。
在UltraScale+系列中,賽靈思還將提供業(yè)界首款3D-on-3D器件——其采用臺積公司16FF+ 3D晶體管技術(shù)實(shí)現的第三代堆疊硅片互聯(lián)3D IC。
Myron指出,屢獲殊榮的7系列3D IC通過(guò)在單個(gè)集成芯片上提供多個(gè)芯片,突破了摩爾定律的性能和容量極限。
Myron指出:“憑借我們的同質(zhì)3D IC,我們能夠突破摩爾定律的容量極限,從而可提供容量是28nm最大型單芯片FPGA容量2倍的器件。然后利用我們的首款異構器件,我們能夠將FPGA芯片與高速收發(fā)器芯片組合在一起,提供28nm單芯片器件無(wú)法實(shí)現的高系統性能與帶寬。利用UltraScale+ 3D IC,我們將繼續提供超越摩爾定律極限的高容量與性能。”
源于ULTRARAM的性能功耗比優(yōu)勢
Myron說(shuō)通過(guò)采用最新大型片上存儲器UltraRAM,眾多UltraScale+設計相對28nm將獲得更多的性能功耗比提升。賽靈思將在大部分UltraScale+器件中新增UltraRAM。
Myron指出:“從根本上來(lái)說(shuō),片上存儲器(如LUT RAM 或分布式RAM和Block RAM)和片外存儲器(DDR或片外SRAM等)之間的差距越來(lái)越大。有很多處理器密集型應用需要不同類(lèi)型存儲器。尤其是當您設計更大型更復雜的設計時(shí),就更需要較快速的片上存儲器。Block RAM太細太少。而如果您將存儲器放在片外,不僅會(huì )增加功耗,讓I/O變得復雜,而且還會(huì )增加材料清單(BOM)成本。
這就是賽靈思開(kāi)發(fā)UltraRAM的原因。Myron 指出:“我們所做的就是增加片上存儲器分層結構的層數,以及能夠在設計中輕松實(shí)現大型存儲器模塊。我們不僅幫助設計人員輕松放置恰當尺寸的片上存儲器,而且時(shí)序也有保障。”
通過(guò)LUT或分布式RAM,設計人員可以添加1b和kb級大小的RAM,而B(niǎo)RAM可讓他們添加10Mb大小的存儲器模塊。UltraRAM允許采用UltraScale+器件的設計人員用100Mb級的存儲器塊實(shí)現片上SRAM(如圖2所示)。這樣做,設計人員只需較少量的片外RAM (SRAM、RLDRAM和TCAM)就能夠打造出性能/能效更高的系統。同時(shí)還會(huì )降低材料清單(BOM)成本。最大型的UltraScale+ 器件VU13P具有432 Mb的UltraRAM。

圖2 – UltraRAM可填補片上存儲器和片外存儲器之間的存儲器空白,從而使設計人員能夠利用較大型的本地存儲器模塊創(chuàng )建性能更高、功耗更低的系統。
源于SmartConnect的性能功耗比優(yōu)勢
另一項新技術(shù)SmartConnect,可進(jìn)一步提升UltraScale+設計的性能功耗比優(yōu)勢。
Myron說(shuō):“SmartConnect是工具和硬件協(xié)同優(yōu)化的結晶,也是一種智能方法,即便設計越來(lái)越復雜,也可輕松實(shí)現。”
傳統上,當工程師在設計中填充的IP模塊越多,開(kāi)銷(xiāo)(功耗和占用面積需求)就越大。Myron說(shuō)借助SmartConnect,賽靈思已向Vivado®設計套件增加了一些優(yōu)化功能,從而可以從系統級層面考慮整個(gè)設計。SmartConnect具有最有效的互聯(lián)拓撲結構,可實(shí)現最小的占位面積和最高的性能,從而充分發(fā)揮AXI互聯(lián)的一些最新增強功能以及16nm UltraScale+芯片的優(yōu)勢。
Myron指出:“16nm UltraScale+器件在這個(gè)更高的協(xié)議層而不僅僅是在路由層上具有更高的效率。這意味著(zhù)在16nm FinFET優(yōu)勢的基礎上進(jìn)一步提高性能功耗比優(yōu)勢。”
圖3展示了一個(gè)真實(shí)的設計,其含有8個(gè)視頻處理引擎,所有這些引擎均與處理器和儲存器相連。Myron說(shuō):也許奇怪,像這樣的一個(gè)真實(shí)世界的設計,互連邏輯竟然差不多占用了設計總面積的一半。這不僅影響功耗,而且還會(huì )限制頻率。而SmartConnect可以自動(dòng)重組互連模塊并在不影響性能的情況下將功耗降低20%。
16nm ULTRASCALE FPGA標準測試
舉例說(shuō)明FPGA設計方案的性能功耗比優(yōu)勢,在28nm Virtex-7 FPGA中實(shí)現的48端口無(wú)線(xiàn)CPRI壓縮與基帶硬件加速器的功耗為56W(如圖4)。在同一性能水平下運行的同一設計實(shí)現在16nmVirtex UltraScale+ FPGA中,功耗僅為27W,相比28nm設計功耗降低了55%,性能功耗比提升了2.1倍。加上UltraRAM和SmartConnect提供的額外性能功耗比優(yōu)勢,實(shí)現在VirtexUltraScale+中的設計相比28 nm Virtex-7 FPGA實(shí)現方案,性能功耗比提升了2.7倍,功耗降低了63%。
同樣,在FPGA功耗預算為15W的圖像處理PCI模塊中,28 nmVirtex-7可實(shí)現每秒525次操作的性能。相比之下,實(shí)現在16 nm UltraScale中的同一設計則可實(shí)現每秒1255次操作的高性能,性能功耗比提升了2.4倍。加上UltraRAM和SmartConnect提供的額外性能功耗比優(yōu)勢,Virtex UltraScale +實(shí)現方案相比28 nm Virtex-7 FPGA實(shí)現方案,性能功耗飆升3.6倍。

圖3 – SmartConnect技術(shù)將互聯(lián)所占用的面積削減達20%,這樣在相同性能水平下,功耗可降低20%。

圖4 – 16nm UltraScale+可為那些設法在相同功耗預算范圍內更快速實(shí)現設計以及試圖在相同性能水平下大幅降低功耗的設計人員保持其顯著(zhù)的性能功耗比優(yōu)勢
ZYNQ ULTRASCALE MPSOC可提供超過(guò)5倍的性能功耗比優(yōu)勢
盡管賽靈思原本可以采用臺積公司20 nm工藝實(shí)現其第二代全可編程SoC,但公司仍會(huì )選擇等待采用臺積公司的16 nm FinFET工藝來(lái)實(shí)現該器件。該器件的異構多處理特性集結合16nm UltraScale架構的性能功耗比優(yōu)勢,可以將16nm Zynq UltraScale+ MPSoC打造成更高效的中央處理系統控制器。該器件可提供超過(guò)28 nm Zynq SoC 5倍的性能。
去年,賽靈思針對UltraScale MPSoC架構推出了其“為合適任務(wù)提供合適引擎”的使用模型,但保留了有關(guān)Zynq UltraScale+MPSoC器件應有的特定內核的細節。目前公司正發(fā)布全特性集Zynq UltraScale+ MPSoC(如圖5所示)。

圖5 – 16nm Zynq UltraScale+ MPSoC采用了一組豐富的處理引擎,設計團隊能夠為各項任務(wù)量身定制處理引擎,從而實(shí)現無(wú)與倫比的系統性能,進(jìn)而顯著(zhù)提升其系統價(jià)值。
當然,初始28nm Zynq SoC的最大增值是在單個(gè)器件中完美集成了ARM處理系統和可編程邏輯。 Zynq SoC的處理系統(PS)和可編程邏輯(PL)模塊通過(guò)超過(guò)3000多個(gè)互聯(lián)(峰值帶寬運行速率約為84 Gbps)連接在一起。PS和PL之間的緊密相連所提供的吞吐量和性能不是一個(gè)包含FPGA和獨立ASSP的雙芯片系統架構能簡(jiǎn)簡(jiǎn)單單實(shí)現的。
目前借助16nm UltraScale+ MPSoC,賽靈思顯著(zhù)提高了處理系統和可編程邏輯之間的性能,為器件提供了超過(guò)6,000次互聯(lián)(峰值帶寬運行速率為500Gbps)。賽靈思公司全可編程SoC產(chǎn)品市場(chǎng)營(yíng)銷(xiāo)與管理總監Barrie Mullins指出:“這使得Zynq UltraScale+ MPSoC處理系統與邏輯系統之間的連接速率比采用28nm Zynq SoC可能實(shí)現的連接速率快6倍。而且雙芯片(ASSP +FPGA)架構的系統性能遠遠落后于此。”
Mullins說(shuō)Zynq UltraScale+ MPSoC的核心是64位四核ARM Cortex-A53處理器,其可提供2倍于28nmZynq SoC的雙核Cortex-A9處理系統的性能。應用處理系統具有硬件虛擬化和非對稱(chēng)處理功能,可全面支持ARM的TrustZone®套件的安全特性。
賽靈思還為Zynq UltraScale+MPSoC提供了一個(gè)雙核ARM Cortex-R5實(shí)時(shí)處理子系統,可幫助用戶(hù)向其系統添加確定性操作。實(shí)時(shí)處理器可確保為需要最高級別吞吐量、安全性和可靠性的應用提供即時(shí)系統響應。
為進(jìn)一步提升處理性能,Zynq UltraScale+ MPSoC還內置了一系列的專(zhuān)用圖形引擎。ARM Mali™-400MP專(zhuān)用圖形加速內核可幫助主CPU分擔圖形密集型任務(wù)。為協(xié)助GPU,賽靈思向用于視頻壓縮/解壓縮(支持8Kx4K (15fps)和4Kx2K (60fps)的H.265視頻標準)的可編程邏輯塊添加了一個(gè)硬化的視頻編解碼器內核。DisplayPort源內核可幫助用戶(hù)加速視頻數據分組,同時(shí)還避免其系統使用外部DisplayPort TX發(fā)送器芯片。
Zynq UltraScale+ MPSoC還具有一系列片上存儲器增強功能。該產(chǎn)品系列中的最大型器件,其可編程邏輯中除Block RAM外,還包含UltraRAM。同時(shí)Zynq UltraScale+ MPSoC的處理內核共享L1和L2高速緩存。
Zynq UltraScale+ MPSoC還采用具備ECC功能的位數更寬的72位DDR接口內核(64位+ECC的8位)。該接口能提供用于DDR4的2,400Mbps速率,可支持32GB容量的更大內存深度DRAM。
Zynq UltraScale+ MPSoC上的專(zhuān)用安全單元可提供軍事級安全性,諸如安全啟動(dòng)、密鑰與庫管理,以及防纂改功能等——這些都是設備間通信以及互聯(lián)控制應用的標準需求。此外,Zynq UltraScale+MPSoC的可編程邏輯系統還采用了針對150G Interlaken、100GEthernet MAC和PCIe® Gen4的集成連接功能塊。板載模擬混合信號(AMS) 內核有助于設計團隊利用系統監控器(System Monitor)測試其系統。
借助所有這些功能,不是任何應用都會(huì )用到MPSoC中的每個(gè)引擎。因此,賽靈思為Zynq UltraScale+MPSoC提供了一個(gè)極其靈活的專(zhuān)用電源管理單元(PMU)。該內核使用戶(hù)能夠控制電源域和分區(粗/細精度),僅為系統正使用的處理單元供電。而且,設計團隊能夠對該內核進(jìn)行編程,以實(shí)現動(dòng)態(tài)操作,從而確保系統僅運行執行給定任務(wù)所需的功能,進(jìn)而降低功耗。PMU還可實(shí)現眾多安全性和可靠性,比如信號和誤差的檢測與緩解、安全狀態(tài)模式,以及系統隔離與保護。
Myron表示,歸功于上述探討的16nm新增的所有這些處理功能,采用Zynq Ultra-Scale+ MPSoC構建的設計相比采用28nm Zynq SoC實(shí)現的設計,性能功耗比優(yōu)勢平均提升5倍。
16nm ZYNQ ULTRASCALEMPSOC測試標準
為了說(shuō)明Zynq UltraScale+ MPSoC的性能功耗比優(yōu)勢,讓我們來(lái)看一下該器件服務(wù)的眾多應用中的3個(gè)應用的標準測試結果,不同顏色用于演示處理引擎的多樣性(如圖6所示)。

圖6 – Zynq UltraScale+ MPSoC擁有豐富的處理模塊、外設集和16nm邏輯塊,可幫助設計團隊創(chuàng )建出比采用28nm Zynq SoC實(shí)現的設計高出5倍性能功耗比優(yōu)勢的創(chuàng )新型系統。
為創(chuàng )建一個(gè)運行全1080p視頻的視頻會(huì )議系統,設計人員采用一個(gè)帶有獨立H.264 ASSP的Zynq SoC。利用Zynq UltraScale+ MPSoC的優(yōu)勢,設計人員現在能夠在單個(gè)Zynq UltraScale+ MPSoC中實(shí)現4Kx2K UHD系統,而且在相同功耗預算條件下,該系統相比雙芯片系統而言,性能功耗比提高了5倍。
賽靈思公司高級SoC產(chǎn)品線(xiàn)經(jīng)理Sumit Shah表示:“在需求使用Zynq SoC和兩個(gè)ASSP的公共安全無(wú)線(xiàn)電應用中,現在您只需使用一個(gè)Zynq UltraScale+ MPSoC就可實(shí)現整個(gè)設計,而且相對此前的配置,系統功耗降低了47%,性能提升了2.5倍,從而實(shí)現了4.8倍的性能功耗比優(yōu)勢。”
Shah說(shuō),同樣的,此前實(shí)現在兩個(gè)28nm Zynq SoC上的汽車(chē)多攝像頭駕駛員輔助系統,現在可以縮小到一個(gè)Zynq UltraScale+ MPSoC上。單芯片系統比雙芯片設計的性能提升2.5倍,功耗降低50%。相對此前實(shí)現方案而言,這可將性能功耗比凈提升5倍。
針對所有UltraScale Plus產(chǎn)品系列的早期客戶(hù)參與計劃正在如火如荼進(jìn)行。首個(gè)流片和設計工具的早期試用版本預計將于2015年第二季度推出。公司有望在2015年第四季度開(kāi)始向客戶(hù)出貨UltraScale+器件。
評論