<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 國產(chǎn)最強通用GPU來(lái)了！770億顆晶體管，八大核心特性揭秘

國產(chǎn)最強通用GPU來(lái)了！770億顆晶體管，八大核心特性揭秘

發(fā)布人：芯東西時(shí)間：2022-08-11 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

三年磨一劍，團隊規模已近千人。?

作者 | 心緣
編輯 | 漠影
芯東西8月9日報道，今日下午，上海GPU獨角獸企業(yè)壁仞科技推出首款面向云端人工智能（AI）訓練及推理的通用GPU算力產(chǎn)品BR100系列，其旗艦產(chǎn)品的峰值算力超過(guò)了英偉達目前在售的旗艦計算產(chǎn)品A100 GPU的3倍。

▲張文展示BR100芯片

“全球通用GPU算力紀錄，第一次由一家中國企業(yè)創(chuàng )造。”在發(fā)布會(huì )上，壁仞科技創(chuàng )始人、董事長(cháng)、CEO張文宣布，“中國通用GPU芯片進(jìn)入每秒1,000,000,000,0000,000次計算新時(shí)代?！?/span>

壁仞科技成立于2019年9月9日，再過(guò)一個(gè)月，就是其三周年的紀念日。團隊總共經(jīng)過(guò)1065個(gè)日日夜夜的奮戰，這才有了這款大算力芯片的誕生。在此之際，張文也宣布他的下一個(gè)小目標：“百年基業(yè)長(cháng)青”。BR100芯片采用7nm制程、壁仞原創(chuàng )“壁立仞”芯片架構，容納近800億顆晶體管，配備超300MB片上高速SRAM，并應用Chiplet與2.5D CoWoS封裝技術(shù)，突破了大尺寸芯片制造與封裝中的光罩尺寸限制問(wèn)題，做到高良率與高性能的兼顧。

它也是國內互連帶寬創(chuàng )紀錄芯片。BR100還首次引入了壁仞科技原創(chuàng )定義的TF32+數據精度，可提供比英偉達TF32更高的數據精度與吞吐性能。同時(shí)壁仞提供有配套的原創(chuàng )異構計算平臺BIRENSUPA，提供端到端全棧覆蓋。

此外，壁仞科技與浪潮現場(chǎng)共同發(fā)布了創(chuàng )全球性能紀錄的OAM服務(wù)器“海玄”，其峰值浮點(diǎn)算力達8PFLOPS，最大功耗為7KW，并提供高能效、低TCO（總擁有成本）的數據中心集群方案。“我見(jiàn)過(guò)很多豪華的創(chuàng )業(yè)團隊失敗，但是從來(lái)沒(méi)見(jiàn)過(guò)有信仰的團隊失敗?！睆埼姆窒碚f(shuō)，自己的創(chuàng )業(yè)理念是“做難而正確的事，真正替社會(huì )創(chuàng )造價(jià)值”。目前，壁仞科技團隊規模已超過(guò)900人，并有望在今年年底達到千人規模，其中85%以上擁有碩士及以上學(xué)位。除了通用GPU外，壁仞科技也啟動(dòng)了圖形GPU產(chǎn)品線(xiàn)。圍繞BR100芯片的更多技術(shù)細節和落地進(jìn)展，芯東西采訪(fǎng)了多位壁仞科技高層。壁仞科技聯(lián)合創(chuàng )始人、總裁徐凌杰告訴芯東西，BR100系列芯片以及相應硬件計算產(chǎn)品將于今年年底量產(chǎn)。

01.全球最強性能通用GPU八大核心特性

壁仞科技BR100系列通用GPU算力產(chǎn)品針對AI訓練、推理，以及更廣泛的通用計算場(chǎng)景而設計，主要應用于數據中心部署場(chǎng)景，兼具高算力、高能效、高通用性等特點(diǎn)。

▲壁仞BR100芯片與英偉達H100/A100基礎規格對比

綜合來(lái)看，其旗艦產(chǎn)品BR100有8項核心特性：（1）先進(jìn)制造及封裝技術(shù)：采用7nm制程工藝，在1074mm2芯片面積上集成了770億顆晶體管，并應用了前沿的Chiplet與2.5D CoWoS封裝技術(shù)，能夠兼顧高良率與高性能。（2）高性能及高能效比：核心性能媲美英偉達最新推出的旗艦計算產(chǎn)品H100 GPU，較英偉達A100算力提升3倍以上。

（3）多數據精度支持：除了原生支持FP32、BF16、FP16、INT8等主流數據精度外，還支持壁仞原創(chuàng )定義的TF32+數據精度。與TF32相比，TF32+在滿(mǎn)足相同動(dòng)態(tài)表示范圍的前提下，增加了5位尾數（mantissa），可實(shí)現比TF32更高的數據精度與吞吐性能，適用于大量的乘加計算。

（4）先進(jìn)內存系統：64GB HBM2e片外內存，數據速率高達3.2Gbps，帶寬高達1.64TB/s，總計位寬4096bit。（5）先進(jìn)互連系統：原創(chuàng )BLink高速GPU互連技術(shù)，采用最新高速serDes技術(shù)，支持8卡點(diǎn)對點(diǎn)全互連，聚合帶寬達512GB/s，創(chuàng )國內互連帶寬紀錄；采用最新一代主機接口PCIe 5.0并率先支持CXL 2.0通信協(xié)議，雙向帶寬高達128GB/s。

（6）安全虛擬實(shí)例（SVI）：最高支持8個(gè)獨立實(shí)例，每個(gè)實(shí)例物理隔離并配備獨立的硬件資源，可獨立運行。（7）國密安全規范：專(zhuān)用硬件加解密IP，支持 AES等常用安全加密算法，符合國密一級安全規范。（8）OCP規范硬件系統：符合OCP規范的OAM模組，最高支持550W TDP風(fēng)冷散熱，并在通用UBB主板上實(shí)現8卡點(diǎn)對點(diǎn)全互連。BR100系列還包含另一款主流級數據中心加速計算芯片BR104，可適配成熟、部署廣泛的PCIe板卡形態(tài)。

BR104搭載于訓推一體主流級產(chǎn)品壁礪104 PCIe板卡上，它采用標準PCIe形態(tài)，整卡峰值功耗300W，適配多種2-4U的PCIe GPU服務(wù)器，與現有基礎設施高度兼容，現已開(kāi)放邀測。

▲壁仞BR100系列產(chǎn)品與英偉達H100/A100規格對比

02.原創(chuàng )訓推一體架構，自研異構計算平臺

針對通用大算力GPU面臨的內存墻、功耗墻、并行性、互連和指令集架構等挑戰，壁仞科技原創(chuàng )設計了訓推一體芯片架構“壁立仞”，并為其通用GPU打造了完備的BIRENSUPA軟件開(kāi)發(fā)平臺。

壁仞科技CTO洪洲負責主導其首款通用GPU芯片BR100的原創(chuàng )架構研發(fā)設計，他將在今年8月26日舉行的GTIC 2022全球AI芯片峰會(huì )·高峰論壇上發(fā)表《大算力通用GPU賦能超大模型訓練》主題演講。據他介紹，壁仞團隊在微架構上，以通用計算核的設計為中心，搭配強大的張量計算引擎，來(lái)進(jìn)行加速計算；同時(shí)采用自研指令集，以更高效地實(shí)現各功能運行。

具體來(lái)看，BR100有32個(gè)SPC流式處理器簇，每個(gè)SPC有16個(gè)EU執行單元，每4個(gè)EU可配置成1個(gè)CU計算單元，每個(gè)SPC共4096個(gè)線(xiàn)程。而每個(gè)EU有16個(gè)通用流式處理器，同時(shí)包含采用脈動(dòng)3D GEMM架構的專(zhuān)用張量引擎。

BR100總計擁有8192個(gè)通用流式處理器、512組專(zhuān)用張量加速引擎，共128K個(gè)線(xiàn)程，配備256MB分布式共享L2級緩存，支持多SPC間數據共享，并可配置成大容量的scratchpad，還能支持不同層次的近存儲計算。

其自研的GPGPU架構及指令集搭配多級緩存架構，可實(shí)現大模型訓練下的數據重用；基于NoC的通訊架構，支持共享數據多播機制，可以與分布式緩存配合實(shí)現高效通信，大大減少對片外帶寬的需求，并大幅降低功耗。

如前文所述，除了架構設計外，BR100還采用了許多業(yè)界領(lǐng)先的芯片技術(shù)，包括風(fēng)頭漸盛的chiplet。洪洲向芯東西解釋說(shuō)，對于可明確劃分功能模塊的芯片，或在公司產(chǎn)品線(xiàn)非常豐富、產(chǎn)品線(xiàn)之間可重復使用特定模塊的情況下，采用自研chiplet方案進(jìn)行SoC功能模塊的復用可以縮短設計周期、降低設計成本并大幅提升良率。這要求芯片設計團隊具備對高速接口、大芯片封裝有豐富經(jīng)驗。

需注意的是，壁仞科技此次推出的通用GPU產(chǎn)品，主打面向云端數據中心場(chǎng)景的AI計算及通用科學(xué)計算，不能與圖形GPU劃等號。壁仞科技聯(lián)席CEO李新榮告訴芯東西，為了強化計算能力，通用GPU往往會(huì )弱化圖形渲染，并且往往沒(méi)有顯示輸出接口，并不能直接用于游戲等應用（英偉達的專(zhuān)業(yè)計算卡雖也具備渲染能力，但也只能用于云端渲染）。這是由它的應用場(chǎng)景和設計特點(diǎn)所決定的。

另外，有部分人士會(huì )認為專(zhuān)用AI芯片的能效比一定比通用GPU能效比高，可以取代通用GPU，但李新榮特別談道，這一觀(guān)點(diǎn)并不準確，因為不同芯片的能效比受架構、工藝等多種因素影響。即使某些專(zhuān)用芯片在特定場(chǎng)景下能效比高，也不一定能解決實(shí)際應用場(chǎng)景的大算力計算問(wèn)題，尤其在訓練場(chǎng)景下，GPU芯片的絕對算力大、通用性強、軟件棧的易用性和豐富的軟件生態(tài)等特點(diǎn)使得它仍然占據數據中心的加速計算主導地位。

“在數據中心場(chǎng)景下，所謂的專(zhuān)用AI芯片要取代GPU已經(jīng)證明是非常困難的?！崩钚聵s說(shuō)。

與BR100系列芯片搭配，壁仞科技還自研了異構計算平臺BIRENSUPA及配套軟件開(kāi)發(fā)工具，支持業(yè)內主流的深度學(xué)習框架與模型，從而為數據中心場(chǎng)景用戶(hù)提供靈活、安全的算力部署，有效降低數據中心的總擁有成本。

BIRENSUPA（BIREN Scalable Unified Parallel Architecture）平臺是壁仞科技硬件設備上開(kāi)發(fā)深度學(xué)習和通用計算應用的編程模型和軟件平臺，為應用程序提供輕松訪(fǎng)問(wèn)高性能并行處理硬件的能力，具備可開(kāi)源、可擴展的特征。其完整軟件棧包括固件、驅動(dòng)程序、編譯器、工具、編程模型、庫、機器學(xué)習（ML）框架和端到端應用SDK，兼容TensorFlow、PyTorch、飛槳等主流深度學(xué)習框架。BIRENSUPA還支持壁仞自研高性能推理引擎并適配第三方推理引擎，支持現有GPU代碼平滑遷移。

03.已與重點(diǎn)客戶(hù)啟動(dòng)產(chǎn)品適配進(jìn)入測試階段

“今年三月底，還處于上海疫情風(fēng)控期間，壁仞BR100系列芯片率先回片，通過(guò)團隊的努力成功完成一次性點(diǎn)亮工作?！?/span>

李新榮透露道，經(jīng)過(guò)4個(gè)多月的開(kāi)發(fā)，BR100系列在硬件與軟件方面都取得進(jìn)展，不僅芯片順利完成工程樣品的開(kāi)發(fā)，與服務(wù)器設備的適配也有了階段性的成果，整體系統已在最短時(shí)間內進(jìn)入了產(chǎn)品化階段，并獲得了穩定優(yōu)異的性能數據。

“作為一家國內初創(chuàng )企業(yè)，第一次在極短的時(shí)間內完成這樣的工作是非常難得的，足以證明我們在前期的設計工作是扎實(shí)的、可靠的、經(jīng)得住考驗的?！彼锌?。據徐凌杰分享，壁仞科技已與互聯(lián)網(wǎng)、云計算、金融、通信、數據中心的行業(yè)的頭部客戶(hù)簽署戰略協(xié)議，其中與重點(diǎn)客戶(hù)已啟動(dòng)產(chǎn)品適配，并進(jìn)入測試階段，獲得客戶(hù)積極的反饋。目前BR100應用的重點(diǎn)領(lǐng)域以互聯(lián)網(wǎng)、通信運營(yíng)商、行業(yè)AI等領(lǐng)域為主。現場(chǎng)，壁仞和浪潮共同發(fā)布為數據中心云端訓練打造的“海玄”OAM服務(wù)器及集群方案。

“海玄”OAM服務(wù)器可實(shí)現8PFLOPS浮點(diǎn)算力，最大功耗7KW。徐凌杰說(shuō)，“海玄”OAM服務(wù)器創(chuàng )全球單臺GPU服務(wù)器的算力紀錄，將于2022年第四季度開(kāi)放邀測。

基于海玄OAM服務(wù)器，壁仞向市場(chǎng)提供一整套具有高性能、高性?xún)r(jià)比的集群式算力基礎設施解決方案。與國際廠(chǎng)商數據中心方案相比，壁仞的數據中心集群方案僅用1/3的服務(wù)器數量，實(shí)現了更高的浮點(diǎn)算力、更低的峰值能耗和占地空間，同時(shí)將標準煤發(fā)電量降低64%，具有高能效利用率、實(shí)用性、經(jīng)濟性、環(huán)境協(xié)調性等特性。

壁仞科技還宣布加入百度飛槳硬件生態(tài)共創(chuàng )計劃，BR100產(chǎn)品與百度飛槳已經(jīng)完成I級兼容性測試，達到兼容性要求。此外，為了更好服務(wù)全球開(kāi)發(fā)者，壁仞科技開(kāi)發(fā)者云已經(jīng)上線(xiàn)。
04.AI芯片進(jìn)入拼落地時(shí)段

在李新榮看來(lái)，高質(zhì)量人才團隊、前沿的產(chǎn)品定位、微架構創(chuàng )新能力、軟硬件的高效實(shí)現和交付能力等能力，構成了壁仞科技的護城河。“壁仞提供的GPU芯片，不僅僅是解決國產(chǎn)芯片「有和無(wú)」的問(wèn)題，更是解決性能「好和優(yōu)」的問(wèn)題。BR100是一種面向客戶(hù)需求的具備超強算力的通用國產(chǎn)化產(chǎn)品方案，競爭力遙遙領(lǐng)先國內同行?！毙炝杞苷f(shuō)。就認知而言，他認為，壁仞團隊非常清楚只有追求更高的性能、更低的TCO才能獲得商業(yè)落地的優(yōu)勢，最重要的是產(chǎn)品競爭力要獲得商業(yè)客戶(hù)的認可，才能最終做大做強。據徐凌杰觀(guān)察，近兩年，AI芯片、GPU芯片行業(yè)已經(jīng)過(guò)了單純講述PPT的時(shí)段，更多的是考驗企業(yè)在具體場(chǎng)景落地等方面的實(shí)踐。資本市場(chǎng)也更加關(guān)注芯片公司在客戶(hù)側的實(shí)際應用落地反饋。在他看來(lái)，當前AI芯片的比拼，關(guān)鍵在于打造有差異性的產(chǎn)品，深入了解客戶(hù)需求與應用場(chǎng)景痛點(diǎn)，為客戶(hù)解決業(yè)務(wù)實(shí)際問(wèn)題，以創(chuàng )新的架構、突破的性能為目標打造產(chǎn)品，而不僅僅是對標已有產(chǎn)品，長(cháng)期處于追趕狀態(tài)。“GPU芯片作為大國重器，是目前集成電路領(lǐng)域需要重點(diǎn)突破的關(guān)鍵環(huán)節，需要政府、企業(yè)、高校長(cháng)期在技術(shù)、人才、資金等方面進(jìn)行投入?！?/span>

看向未來(lái)，他判斷國內通用GPU產(chǎn)業(yè)往后發(fā)展，最好的結果是能產(chǎn)生1-2家芯片企業(yè)，真正趕超國際巨頭在加速計算芯片領(lǐng)域的市場(chǎng)地位；最差的結果是需要更長(cháng)時(shí)間去建立國產(chǎn)芯片的技術(shù)壁壘，尤其在集成電路全球產(chǎn)業(yè)鏈持續分裂的趨勢下，這需要政府和國家投入更多的資源。

05.結語(yǔ)：用系統性思維解決通用GPU落地難題

在通往大規模商用落地的路上，國產(chǎn)通用GPU還有多道難關(guān)待闖。李新榮舉例說(shuō)，這包括軟件棧的成熟度、客戶(hù)基礎設施的兼容性、產(chǎn)品的性?xún)r(jià)比、支持的應用種類(lèi)等都需持續優(yōu)化。目前，通用GPU面臨的一大關(guān)鍵技術(shù)瓶頸是提升能效比，現存計算體系架構依然存在內存墻、功耗墻等問(wèn)題，計算資源規模很難在現有工藝技術(shù)下繼續實(shí)現快速翻倍。這要求GPU企業(yè)需要以系統性的思維去解決問(wèn)題，包括封裝工藝、稀疏化、精度類(lèi)型、光互連、近存儲計算等。

為了應對這些挑戰，李新榮說(shuō)：“壁仞未來(lái)會(huì )繼續大力布局數據中心的計算產(chǎn)品，持續優(yōu)化軟硬件，不斷擴展壁仞在智能計算領(lǐng)域的能力和行業(yè)觸角，推動(dòng)產(chǎn)品落地和后續迭代?！?/span>

GTIC 2022演講預告

8月26日-27日，「GTIC 2022全球AI芯片峰會(huì )」將在深圳開(kāi)啟。大會(huì )以“不負芯光智算未來(lái)”為主題，將于深圳灣萬(wàn)麗酒店大宴會(huì )廳舉行。

在大會(huì )首日上午舉行的AI芯片高峰論壇上，壁仞科技聯(lián)合創(chuàng )始人&CTO洪洲將發(fā)表主題為《大算力通用GPU賦能超大模型訓練》的演講，分享下一代具有強大算力的通用GPU將如何支持萬(wàn)億參數級別的超大模型訓練，以高性能、高能效比、高通用性助力人工智能賦能百業(yè)。

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

稱(chēng)重傳感器相關(guān)文章:稱(chēng)重傳感器原理

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 通用GPU

相關(guān)推薦

陳巍談芯：最新發(fā)布的壁仞GPU BR100參數深度對比和優(yōu)勢分析

智能計算壁仞科技 BR100 通用GPU | 2022-09-01

國產(chǎn)芯片迎來(lái)重大突破，壁仞科技發(fā)布創(chuàng )全球算力紀錄通用GPU芯片

嵌入式系統壁仞科技算力紀錄通用GPU BR100 | 2022-08-09

定增42億元！景嘉微擬加碼通用GPU芯片

智能計算景嘉微通用GPU | 2023-06-02

天數智芯完成超10億人民幣新一輪融資，加速自主通用GPU創(chuàng )新發(fā)展

智能計算天數智芯融資通用GPU | 2022-07-13

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>