美國升級芯片出口管制措施 AI時(shí)代算力才是硬道理
10月17日,美國商務(wù)部工業(yè)和安全局(BIS)更新了“先進(jìn)計算芯片和半導體制造設備出口管制規則”,對2022年10月7日規則的修改和強化。該規則尚處于公示期,將在30天后生效。
本文引用地址:http://dyxdggzs.com/article/202310/451819.htm新規則將限制英偉達對中國市場(chǎng)芯片銷(xiāo)售,稱(chēng)更嚴格的控制針對英偉達A800和H800芯片,在25天內審查以確定是否需要許可證才能向中國出售這類(lèi)芯片。同時(shí),還有13家中國GPU企業(yè)被列入實(shí)體名單,其中包括摩爾線(xiàn)程、壁仞科技等。
對此,英偉達回應稱(chēng)不會(huì )對其收益產(chǎn)生立即的實(shí)質(zhì)性影響,但可能會(huì )對其長(cháng)期發(fā)展造成損害。此前,英偉達在二季度財報電話(huà)會(huì )議上披露,數據中心方面,中國的銷(xiāo)售額占20-25%。
對于壁仞科技和摩爾線(xiàn)程來(lái)說(shuō),被列入實(shí)體清單意味著(zhù)如果無(wú)法獲得許可,不僅無(wú)法進(jìn)口美國的技術(shù)或產(chǎn)品,也無(wú)法使用基于美國技術(shù)或設備的晶圓廠(chǎng)為其代工芯片。
升級芯片出口管制措施
根據2022年的規定,美國禁止出口超過(guò)兩個(gè)標準的芯片:一個(gè)是功率標準,另一個(gè)是“互連帶寬”即芯片之間的通信速度標準。而根據新規,將用“性能密度”(performance density)即每平方毫米的浮點(diǎn)運算次數來(lái)取代通信速度,阻止企業(yè)尋找變通方案。
例如,英偉達為了不違反美國出口限制規定針對中國市場(chǎng)推出了特供版芯片 —— 限制通信速度的A800/H800(處理速度約為A100/H100的70%),雖然保留了強?的計算能?,但訓練AI大模型的時(shí)間將增加。不過(guò)即便如此,A800/H800在中國市場(chǎng)仍然被認為是用于AI訓練/推理的最佳數據中心芯片。同樣的還有英特爾針對中國市場(chǎng)推出的特供AI處理器Gaudi2等。
修訂后的出口管制措施將禁止美國企業(yè)向中國出售運行速度達到300TFLOPS(即每秒可計算300萬(wàn)億次運算)及以上的數據中心芯片。如果芯片的性能密度達到或超過(guò)每平方毫米370GFLOPS,速度在150-300TFLOPS之間的芯片將被禁止銷(xiāo)售。以上述速度運行但性能密度較低的芯片則屬于“灰色地帶”,這意味著(zhù)企業(yè)必須向美國政府通報對華銷(xiāo)售的情況。
有分析稱(chēng),新舉措可能還包括英偉達的旗艦游戲顯卡RTX4090。而最新消息顯示,美國商務(wù)部對出口管制政策做出了澄清,該政策針對4090顯卡的禁令是允許消費性應用進(jìn)行出口豁免的。這意味著(zhù)4090顯卡仍可以在中國(包括香港和澳門(mén))的消費市場(chǎng)進(jìn)行零售,但不允許用于商業(yè)和生產(chǎn)用途。
新措施為了防止企業(yè)通過(guò)Chiplet的芯片堆疊技術(shù)繞過(guò)芯片限制,還將新規擴大到另外40多個(gè)國家出口先進(jìn)的許可要求,以防止A100和H100系列等AI芯片從海外其他地區輾轉出口到中國;另外,對中國以外的21個(gè)國家提出了芯片制造設備的許可要求,并擴大了禁止進(jìn)入這些國家的設備清單,以限制中國14nm以下先進(jìn)芯片的制造能力。
此次出口管制新規還增加了很多細分領(lǐng)域的物項清單,包括ASIC(應用型專(zhuān)用集成電路)、FPGA(現場(chǎng)可編程邏輯門(mén)陣列)、SRAM存算一體芯片、Chiplet、多重曝光技術(shù)、NPU(神經(jīng)網(wǎng)絡(luò )處理器)等,這些都在美國的管制范圍內。
如果只限制峰值性能,芯片企業(yè)還可以針對中國市場(chǎng)推出性能功耗低的小體積產(chǎn)品,再通過(guò)高速連接的方式組成集群,最終實(shí)現預期中的集群性能。但芯片性能密度的條款把這條路給堵住了,這次新規將填補之前芯片限制的“漏洞”,將一些原本剛好符合之前技術(shù)參數的AI芯片納入限制范圍,同時(shí)阻止中國企業(yè)通過(guò)海外子公司購買(mǎi)美國AI芯片。
在管制芯片企業(yè)出口時(shí),美國企業(yè)的業(yè)績(jì)同樣也會(huì )受到影響,中國市場(chǎng)長(cháng)期是美國芯片企業(yè)在美國以外的最大市場(chǎng)。2022年,英偉達、英特爾、AMD三家主要數據中心芯片在中國大陸地區(含中國香港)營(yíng)收占比分別為21.4%、27.2%、22.1%。
值得注意的是,中國臺灣地區的企業(yè),如華碩、技嘉、微星等,大量最終客戶(hù)仍在中國大陸地區。如果按照中國大陸地區、中國臺灣地區兩個(gè)市場(chǎng)合計統計,英偉達、英特爾、AMD在中國市場(chǎng)的營(yíng)收占比分別為,47.3%、40.3%、32.1%。
AI時(shí)代算力需求指數級增長(cháng)
自2022年11月底以來(lái),美國初創(chuàng )公司OpenAI發(fā)布的人工智能對話(huà)聊天機器人ChatGPT迅速走紅,僅用5天注冊用戶(hù)數就超過(guò)百萬(wàn),并在2個(gè)月內破億,成為史上增長(cháng)最快的消費類(lèi)應用。
以ChatGPT為代表的AI大模型開(kāi)啟了新一輪生產(chǎn)力革新的科技浪潮,人與機器不再局限于簡(jiǎn)單的指令式交互,機器可以理解復雜的意圖,這顛覆過(guò)去互聯(lián)網(wǎng)發(fā)展中的許多業(yè)態(tài),也對實(shí)體經(jīng)濟和產(chǎn)業(yè)發(fā)展產(chǎn)生深遠的影響。因此,GPT被微軟創(chuàng )始人比爾·蓋茨評價(jià)為自圖形界面以來(lái)最重要的技術(shù)進(jìn)步,被英偉達創(chuàng )始人黃仁勛稱(chēng)作是人工智能領(lǐng)域的iPhone時(shí)刻。
當所有人都沉浸在對超大語(yǔ)言模型那令人驚嘆的“生命力”的時(shí)候,AI這個(gè)存在了數十年的概念,已然成為未來(lái)幾十年人類(lèi)社會(huì )發(fā)展的核心變量。而AI的背后是算力、數據、算法的有機結合。
ChatGPT的爆火本質(zhì)上是人類(lèi)在A(yíng)I領(lǐng)域軟件(數據、算法)、硬件(算力)綜合能力大幅提升以后的一次爆發(fā)式體現。隨著(zhù)云計算的廣泛應用,特別是深度學(xué)習成為當前AI研究和運用的主流方式,AI對于算力的要求不斷快速提升。
我們在談AI芯片性能的時(shí)候,首先想到的一個(gè)指標就是算力。算力是算法和數據的基礎設施,支撐著(zhù)算法和數據,是指計算機系統能夠完成的計算任務(wù)量,通常用來(lái)描述對數據的處理能力,采用FLOPS(Floating Point Operations Per Second)表示每秒鐘能夠完成的浮點(diǎn)運算或指令數。在A(yíng)I發(fā)展的最初幾十年里,所需的計算能力是按照摩爾定律增長(cháng)的 —— 大約20個(gè)月的時(shí)間翻一倍。
1950年代,美國數學(xué)家Claude Shannon訓練了一個(gè)名為T(mén)heseus的機器老鼠,使其能在迷宮中導航并記住路徑,Theseus的構建是基于40FLOPS;2012年,由AlexNet(一個(gè)圖像識別AI)標志著(zhù)深度學(xué)習時(shí)代的開(kāi)始,算力翻倍時(shí)間大大縮短到了六個(gè)月;2015年,AlphaGo的出現帶來(lái)了大規模AI模型時(shí)代,它的計算需求比以前所有的AI系統都要大。
比于傳統AI算法,大模型在參數規模上得到大幅提升,參數一般達到千億甚至萬(wàn)億規模。例如OpenAI的GPT系列,最開(kāi)始的GPT-1擁有1.17億個(gè)參數,到GPT-3的參數已經(jīng)到達1750億個(gè),而相應的能力也得到大幅提升。
AI算法模型對于算力的巨大需求,推動(dòng)了今天芯片業(yè)的發(fā)展。據OpenAI測算,2012年開(kāi)始,全球AI訓練所用的計算量呈現指數增長(cháng),平均每3.43個(gè)月便會(huì )翻一倍,目前計算量已擴大30萬(wàn)倍,遠超算力增長(cháng)速度。
一般的說(shuō),AI芯片被稱(chēng)為AI加速器或計算卡,即專(zhuān)門(mén)針對AI算法做了特殊加速設計的芯(其他非計算任務(wù)仍由CPU負責);而從廣義范疇上講,面向AI計算應用的芯片都可以稱(chēng)為AI芯片。這讓算力領(lǐng)域的硬件巨頭們再一次走進(jìn)人們的視線(xiàn),CPU、GPU、FPGA、ASIC等底層硬件中包含的算力價(jià)值將被重塑。
目前GPU是AI算力的主要選擇,因為GPU最初是為了圖形渲染而設計的,而圖形渲染涉及的計算是高度并行化的,這種并行化的特性使GPU非常適合進(jìn)行機器學(xué)習和深度學(xué)習這樣的大規模數據并行計算。GPU的并行計算能力可大幅提升計算效率,可大幅縮短AI算法的訓練和推理時(shí)間,成為AI時(shí)代的算力核心。
并且渲染過(guò)程具體來(lái)說(shuō)就是幾何點(diǎn)位置和顏色的計算,這兩者的計算在數學(xué)上都是用四維向量和變換矩陣的乘法,所以GPU超過(guò)80%部分為運算單元,具有例如張量核心和矩陣乘法等計算單元,相比較下,CPU僅有20%為運算單元。因此GPU可以更快地執行常見(jiàn)的機器學(xué)習和深度學(xué)習操作:如卷積和矩陣乘法。這些計算單元與通用計算單元相比,具有更高的效率和更快的速度。
在進(jìn)行深度學(xué)習等計算時(shí),還需要大量的內存和高速的內存帶寬來(lái)存儲和處理海量數據。GPU相比于其他硬件(如CPU),具有更高的內存帶寬和更大的內存容量,可以更有效地存儲和處理數據,從而提高計算速度。
現階段,隨著(zhù)例如英偉達A100、H100等型號產(chǎn)品的發(fā)布,GPU在算力方面的優(yōu)勢相較于其他硬件具有較大優(yōu)勢。GPU的工作也從一開(kāi)始的圖形處理逐步轉化為計算,在深度學(xué)習的訓練階段其性能更是無(wú)所匹敵,成為最適合支撐AI訓練和學(xué)習的硬件,應用于數據中心加速和部分智能終端領(lǐng)域。
據JPR統計,2023年一季度英偉達GPU市占率達84%,是GPU市場(chǎng)的主導者。英偉達1999年首次提出GPU概念,2006年推出CUDA運算平臺,2023年5月發(fā)布超級計算機DGXGH200,其算力規模達到1Eflops,支持萬(wàn)億參數AI大模型訓練,為巨型人工智能模型提供線(xiàn)性可擴展性。英偉達基于其GPU與CUDA等生態(tài)體系的構建,已成為AI算力關(guān)鍵供應商。
· 至于CPU,由于GPU無(wú)法單獨工作,必須由CPU進(jìn)行控制調用才能工作。CPU也可單獨作為AI芯片使用,處理復雜的邏輯運算和不同的數據類(lèi)型,雖然兼容性好但比較浪費,當需要大量的處理類(lèi)型統一的數據時(shí),可調用GPU進(jìn)行并行計算。
· 而FPGA具有低能耗、高性能以及可編程等特性,相對于CPU與GPU有明顯的性能或者能耗優(yōu)勢,但對使用者要求高。通過(guò)FPGA可以有效降低研發(fā)調試成本,提高市場(chǎng)響應能力,推出差異化產(chǎn)品,科技巨頭紛紛布局云計算+FPGA的平臺。隨著(zhù)FPGA的開(kāi)發(fā)者生態(tài)逐漸豐富,適用的編程語(yǔ)言增加,FPGA運用會(huì )更加廣泛。
· ASIC可以更有針對性地進(jìn)行硬件層次的優(yōu)化,從而獲得更好的性能、功耗比。但是ASIC芯片的設計和制造需要大量的資金、較長(cháng)的研發(fā)周期和工程周期,而且深度學(xué)習算法仍在快速發(fā)展,若深度學(xué)習算法發(fā)生大的變化,FPGA能很快改變架構,適應最新的變化,ASIC類(lèi)芯片一旦定制則難于進(jìn)行修改。
· AI芯片還可以用NPU,近年來(lái)NPU異軍突起,同樣的芯片面積下,NPU能夠做到幾十倍于GPU的AI性能。英偉達也在近幾代的GPU中塞了不少Tensor Core,但如果使用NPU的話(huà),可以并不完全依賴(lài)英偉達的CUDA生態(tài),所以英特爾、AMD乃至中國的很多企業(yè)都分了一杯羹。
論性能,華為的NPU在A(yíng)I性能上已經(jīng)不遜色于英偉達的產(chǎn)品,目前缺的就是“生態(tài)”。只有參與的開(kāi)發(fā)者夠多,生態(tài)才能建立,但是轉型都是存在“陣痛的”,意味著(zhù)大量代碼的重構。
總的來(lái)看,目前GPU是市場(chǎng)上用于A(yíng)I計算最成熟應用最廣泛的通用型芯片,短期將延續AI芯片的領(lǐng)導地位。在算法技術(shù)和應用層次尚淺時(shí)期,其強大的計算能力、較低的研發(fā)成本和通用性將繼續占領(lǐng)AI芯片的主要市場(chǎng)份額。
評論