算法引領(lǐng)AI芯片走入2.0時(shí)代
1970年底,英特爾發(fā)布了“一件劃時(shí)代的作品”——Intel 4004微處理器。
本文引用地址:http://dyxdggzs.com/article/202209/438609.htm這塊全球第一款大規模商用微處理器,出自英特爾“有史以來(lái)最偉大的芯片工程師”費德里科.法金(Frederico Faggin)之手。他將2250個(gè)晶體管以10微米的距離,集成在了這片僅有3cm×4cm的芯片上,并把自己的名字縮寫(xiě)“F.F.”刻了上去。
這塊每秒運算6萬(wàn)次、能夠處理4bit數據、成本僅不到100美元的10微米制程芯片,在當時(shí)直接宣告了集成電子設備新時(shí)代的來(lái)臨。英特爾CEO戈登.摩爾(Gordon Moore)甚至將4004稱(chēng)為:人類(lèi)歷史上最具革新性的產(chǎn)品之一。
如今,距離劃時(shí)代的4004芯片已經(jīng)過(guò)了51個(gè)年頭。在這51年里,芯片技術(shù)急速增長(cháng)。今年6月蘋(píng)果發(fā)布的5納米M2芯片擁有200億晶體管,晶體管數量已是4004的900萬(wàn)倍,而制程卻僅是它的兩千分之一。
通常來(lái)說(shuō),芯片制程決定了其所能集成的晶體管數量,也直接影響著(zhù)芯片性能。但制程數據也并非完全是越小越好,凡事都有例外。
就在前不久剛剛發(fā)布的MLPerf推理v2.1的榜單中,來(lái)自中國深圳的AI計算服務(wù)與平臺提供商墨芯人工智能憑借12納米制程,在Resnet-50模型中超越了4納米制程的英偉達最強GPU芯片H100。
2018年,墨芯人工智能在硅谷創(chuàng )立,目前總部位于深圳。創(chuàng )始團隊來(lái)自于卡內基梅隆大學(xué)頂尖AI科學(xué)家、世界頂尖半導體公司(如Intel、Marvell和Oracle等)核心高量產(chǎn)芯片研發(fā)團隊。
甲子光年曾在今年3月報道過(guò)墨芯。當時(shí),墨芯即將發(fā)布搭載Antoum??芯片的AI計算卡:S4、S10和S30。
盡管與許多明星創(chuàng )業(yè)公司同樣做AI芯片,但墨芯的重點(diǎn)與其他家非常不同。不管是最近火熱的GPGPU,還是曾經(jīng)AI芯片熱潮的ASIC,過(guò)去各家公司都把重點(diǎn)放在硬件層面的精進(jìn)上。但墨芯主打的卻是從軟件——稀疏化算法出發(fā)進(jìn)行軟硬協(xié)同設計。
稀疏化算法由于其本身存在一定的難以繞開(kāi)的技術(shù)難點(diǎn),以往選擇該路線(xiàn)的芯片公司并不多。但隨著(zhù)數據計算量的增大,稀疏化算法開(kāi)始越發(fā)展現出其高算力、低功耗、高性?xún)r(jià)比的價(jià)值。
這也是墨芯能夠憑借12納米制程贏(yíng)下4納米H100的重要原因。
本次的MLPerf中,另一家主打稀疏化算法的美國創(chuàng )業(yè)公司Neural Magic也提交了成績(jì)。這是兩家稀疏化算法路線(xiàn)公司首次參加MLPerf,讓MLCommons的創(chuàng )始人David Kanter感嘆:“新架構令人振奮,展示出了業(yè)界的創(chuàng )新力和創(chuàng )造力”。
日前,「甲子光年」采訪(fǎng)了墨芯創(chuàng )始人兼CEO王維,與他探討墨芯為何能做到MLPerf的結果,以及算法將如何引領(lǐng)AI芯片的未來(lái)。
1.MLPerf測試——AI算力領(lǐng)域的“圖靈獎”
自英特爾發(fā)布4004后的51年里,芯片制造公司不斷改進(jìn)工藝,讓單位面積能夠容納更多的晶體管。
英特爾創(chuàng )始人預計,單位面積的晶體管數量約每?jì)赡陼?huì )增加一倍,而芯片性能大約18個(gè)月會(huì )提升一倍。這就是著(zhù)名的“摩爾定律”。
過(guò)去10年中,隨著(zhù)人工智能的快速發(fā)展,數據計算量變得越來(lái)越大。人們對芯片性能的需求,遠遠超過(guò)了芯片性能的增長(cháng)速度。業(yè)內專(zhuān)家估計,目前,人工智能的算力需求每3.5個(gè)月就會(huì )翻倍。
這就導致原來(lái)的CPU不再適用于人工智能計算。而能夠進(jìn)行海量并行運算的GPU,以及滿(mǎn)足特定功能的ASIC逐漸成為AI計算芯片的主流,伴隨著(zhù)制程的提升而更新迭代。
為了更好地推動(dòng)人工智能發(fā)展、建立衡量機器學(xué)習性能的行業(yè)指標,2018年,來(lái)自谷歌、百度、哈佛大學(xué)、斯坦福大學(xué)和加州大學(xué)伯克利分校的工程師和研究人員,成立了一個(gè)名為“MLCommons”的組織,并共同編寫(xiě)測試套件,用以測試芯片算力,也就是后來(lái)的MLPerf。
工作開(kāi)展得很快。同年,該組織就推出了訓練和高性能計算測試套件。并且在隨后的兩年里又推出了3套推理測試套件。
推出套件的同時(shí),MLCommons每年都會(huì )邀請世界各個(gè)企業(yè)和組織加入,并通過(guò)MLPerf套件對芯片性能進(jìn)行測試。MLCommons每季度都會(huì )組織成員提交結果并發(fā)布成績(jì)。每年一、三季度發(fā)布推理結果,二、四季度發(fā)布訓練結果。
隨著(zhù)MLCommons越來(lái)越受到認可和關(guān)注,加入其中的公司也越來(lái)越多。如今,MLCommons已經(jīng)受到全球超過(guò)70個(gè)公司和組織的支持,除了最初創(chuàng )始的公司外,商業(yè)企業(yè)還包括英特爾、英偉達、Meta、微軟等芯片和云計算巨頭。
本季度的推理測試是MLPerf的第6次測試,共收到超過(guò)5300個(gè)測試結果,其中包括中國企業(yè)阿里巴巴、H3C、浪潮、聯(lián)想、墨芯、壁仞。
MLPerf測試主要分為固定任務(wù)(Closed division)和開(kāi)放任務(wù)(Open division)兩種。
根據MLCommons官方信息,MLPerf為了鼓勵軟件和硬件創(chuàng )新,有兩個(gè)分區,在實(shí)現結果時(shí)有不同程度的靈活性。封閉任務(wù)旨在對硬件平臺或軟件框架進(jìn)行標準一致的比較,要求使用與參考模型相同的模型。開(kāi)放任務(wù)旨在促進(jìn)創(chuàng )新,允許使用不同的模型或重新訓練。
簡(jiǎn)單來(lái)說(shuō),固定任務(wù)更關(guān)注硬件能力,而開(kāi)放任務(wù)更關(guān)注創(chuàng )新的可能性,即軟件和硬件融合的能力。由此來(lái)看,開(kāi)放任務(wù)更可能暗示未來(lái)人工智能計算的發(fā)展方向。
值得注意的是,如果開(kāi)放任務(wù)的參賽者使用了不同的模型和數據集,需要在提交的結果中標示出來(lái),由此可以提供開(kāi)放任務(wù)和固定任務(wù)的比較維度。
本次測試中,墨芯S30計算卡以95784 FPS的單卡算力,奪得Resnet-50模型算力全球第一,是全球旗艦產(chǎn)品H100的1.2倍,是A100的2倍。
同時(shí),墨芯S30運行BERT-Large是A100的2倍,僅次于H100,在Bert-large高精度模型(99.9%),單卡算力達3837 SPS。
作為一個(gè)國際組織,MLCommons除了組織成員企業(yè)測試之外,更重要的在于推進(jìn)行業(yè)內的交流。這個(gè)季度剛開(kāi)始,MLCommons就著(zhù)手聯(lián)系成員企業(yè),并輔導大家每個(gè)階段應該如何提交數據。
過(guò)去三個(gè)月里,參與測試的成員企業(yè)每周都會(huì )開(kāi)展線(xiàn)上會(huì )議。墨芯與國際芯片廠(chǎng)商高通、英偉達、英特爾等公司交流探討,不僅了解到各家對于A(yíng)I計算的側重點(diǎn)、如何評價(jià)算力性能等,更意識到了企業(yè)之間開(kāi)放互助態(tài)度,并共同將此作為共識向下推進(jìn)。
也正是這種企業(yè)之間互助的態(tài)度和對技術(shù)創(chuàng )新的追求,讓算法有機會(huì )從硬件的競賽中脫穎而出。
2.稀疏化計算——從冷門(mén)到熱門(mén)
不同于其他公司,墨芯的特色在于稀疏化算法。
稀疏化計算并不是一項新技術(shù)。
“稀疏化計算”的原理不難理解,是指在原有AI計算的大量矩陣運算中,將含有0元素和無(wú)效元素剔除,讓神經(jīng)網(wǎng)絡(luò )模型消減冗余,以顯著(zhù)加快計算速度,提高計算性能。
比如在人臉識別的場(chǎng)景中,傳統的算法需要計算圖片中的所有元素與現有圖片模型的關(guān)聯(lián),而后得出結論;但稀疏化計算會(huì )先在圖片中找出需要比對的元素,而后只需計算這些元素與現有圖片模型的關(guān)聯(lián),不再計算圖片中其他的無(wú)效元素。
由于稀疏化算法的這種特性,過(guò)去它一直被業(yè)內質(zhì)疑會(huì )因為舍棄元素而導致最終結果并不準確。但隨著(zhù)人工智能所需要計算的數據量的急劇膨脹,尋求更高效率、更高性?xún)r(jià)比的算法,在今天顯得越發(fā)重要。
于是近幾年,科技巨頭都開(kāi)始表達出對稀疏化計算的興趣。
Meta AI 西雅圖研究負責人Luke Zettlemoyer教授指出,在巨大的數據量下,訓練大模型的難度也在急劇增加?!叭绻胍P屠^續變大,最終不得不做出妥協(xié):不再使用稠密的神經(jīng)網(wǎng)絡(luò ),而是采用稀疏化的思想”。
谷歌人工智能主管Jeff Dean在今年三月提交了論文,闡述了新的通用AI架構Pathways。稀疏、通用和高效是它的關(guān)鍵詞。
更重要的信號來(lái)自于硬件領(lǐng)域。
與以往完全不同,硬件公司如今也開(kāi)始支持稀疏化計算。英偉達在2020年發(fā)布的基于A(yíng)mpere架構的A100芯片,支持2倍的稀疏化計算;今年7月,英特爾與阿里巴巴DeepRec開(kāi)源推薦引擎合作,共同探索稀疏化模型的訓練與預測。
根據稀疏化算法的原理,稀疏化計算天然擁有快速、節省能耗的特性。例如同樣作為旗艦加速卡,A100功耗為400W,H100更是飆升到了700W;而墨芯的S4僅有75W,S30也僅有250W。
而且墨芯采用的還是12納米的工藝,相對于H100的4納米與A100的7納米工藝,成本上預計節省一個(gè)數量級。
業(yè)內對稀疏化計算的質(zhì)疑主要在于兩方面:
第一,稀疏化計算在訓練和執行模型進(jìn)行“稀疏”的步驟時(shí)是否會(huì )增加資源消耗,從而導致整體的優(yōu)化率不高;
第二,稀疏化計算是否會(huì )損失精度。
墨芯CEO王維告訴「甲子光年」:目前墨芯的計算卡已經(jīng)能夠達到4~32倍的稀疏率。通過(guò)計算卡優(yōu)化模型,這個(gè)過(guò)程是“一勞永逸”的。也即優(yōu)化完成后,企業(yè)再做計算時(shí)可以直接開(kāi)啟“瘦身加速”模式。
而在精度層面,MLPerf測試本身就對精度有很高的要求,參賽提交者需要達到相應的精度要求才能通過(guò)審核。
從MLPerf公布的結果看,墨芯采用的是和固定任務(wù)賽道同樣的模型和數據集,選擇的模型也是Bert-large高精度模型——Bert-large99.9%,即結果精度需要達到官方原始Bert模型精度90.9的99.9%,也就是90.8%以上。
而在實(shí)際任務(wù)中,墨芯面對精度需求嚴格的客戶(hù),采取使用“更大模型+高稀疏倍率”模式,兼顧其對于大幅提高算力和保證精度的要求;反之,對于算力優(yōu)先的客戶(hù),可以在可接受的范圍內調整精度,換取更高倍率的加速。
但對于墨芯來(lái)說(shuō),這些都只是剛剛開(kāi)始。
目前,不管是墨芯還是墨芯的客戶(hù),都主要在推理側用到稀疏化計算,而在訓練側依舊是稠密計算。未來(lái),墨芯希望將稀疏化帶入訓練端,創(chuàng )造更多的性能提升。
3.AI芯片2.0——算法與硬件融合發(fā)展
既然稀疏化算法早已存在,并且具有一定的可取之處,為什么過(guò)去沒(méi)有公司來(lái)做呢?背后的答案其實(shí)非常簡(jiǎn)單:因為原有的GPU不支持。
人工智能計算本質(zhì)是海量的并行計算。相對于CPU而言,GPU擁有許多結構簡(jiǎn)單的計算單元,適合處理海量并行計算。但在稀疏化計算中,這些簡(jiǎn)單的計算單元在內部很難進(jìn)行高倍的稀疏。
比如英偉達的Tensor Core,擁有4*4的結構,就無(wú)法實(shí)現墨芯需要的32倍的稀疏。
墨芯的首席科學(xué)家嚴恩勖曾在采訪(fǎng)中指出,推進(jìn)稀疏化計算過(guò)程中最大的挑戰在于“找不到合適的硬件”。
所以,為了同時(shí)滿(mǎn)足高倍稀疏化和大規模并行運算,墨芯決定從算法和軟件出發(fā),重新定義相應的架構和硬件。墨芯堅持軟硬協(xié)同開(kāi)發(fā),構建了持續多層次優(yōu)化稀疏運算的底層算法能力,架構保證可編程性、高度可拓展性及快速迭代能力,讓整個(gè)硬件從設計之初就完全地支持算法。
這顛覆了外界對AI芯片公司的想象。
一直以來(lái),芯片公司總是從硬件架構來(lái)精進(jìn),比如GPU、ASIC專(zhuān)用芯片,以及近年來(lái)受到關(guān)注的Chiplet、存算一體等技術(shù),都是硬件的迭代。軟件像是附屬品,幾乎不被提起。
但事實(shí)上,幾乎每家AI芯片公司都有比硬件工程師人數更多的軟件團隊。比如墨芯目前的軟硬件人數比大約為6:4。英偉達每年芯片發(fā)布后,次年依靠軟件和系統的升級,又可以提升50%以上的效果。
中國最早一批成立和上市的AI芯片公司寒武紀,在英偉達的CUDA之外,重新搭建了自己的軟件系統。但整個(gè)過(guò)程不僅花費了比硬件更多的時(shí)間和人力,教育依舊長(cháng)路漫漫。吸取了寒武紀的經(jīng)驗,新創(chuàng )業(yè)的AI芯片公司,都在軟件層面兼容CUDA,但又逐步推出自己的軟件棧,吸引更多人加入研發(fā)。
而墨芯走了一條不一樣的路——從創(chuàng )業(yè)之初就堅持以算法和軟件為主,基于算法來(lái)設計架構和硬件。
王維告訴「甲子光年」:“其實(shí)在我看來(lái),這些都是計算科學(xué)的問(wèn)題,軟硬件我不太區分。只是到具體技術(shù)實(shí)現的時(shí)候,哪些事情用硬件做,哪些事情用軟件做而已,本質(zhì)上大家都在解決計算問(wèn)題”。
墨芯在此次MLPerf的成績(jì)正是這種理念照射進(jìn)現實(shí)。軟硬件協(xié)同設計的創(chuàng )新稀疏化架構讓高倍率稀疏計算得以實(shí)現,助力墨芯達成MLPerf出色結果。
在S30的芯片架構設計中,除了用于原生稀疏卷積和矩陣計算的稀疏處理單元(SPU),該處理器還集成了一個(gè)矢量處理單元(VPU),實(shí)現了靈活的可編程性,以跟上AI模型的快速發(fā)展。
對于一個(gè)創(chuàng )業(yè)公司來(lái)說(shuō),需要找到一個(gè)具有顛覆性的角度和方向。墨芯專(zhuān)注于稀疏化計算,并通過(guò)硬件適配算法的方式,希望把稀疏化計算的潛力發(fā)揮到極致。通過(guò)這一路徑,墨芯的目標不僅僅是“替代”現有的GPU,還要創(chuàng )造更多的可能性。
著(zhù)名的自然語(yǔ)言大模型GPT-3擁有1700多億參數。應用GPU來(lái)運行這個(gè)模型,需要10張A100的加速卡才行。但應用稀疏化算法,一張墨芯的S30卡就可以讓這個(gè)模型跑起來(lái)。
這其中的差異,并不只是1張卡和10張卡的成本的區別,它還意味著(zhù)能夠解決更多技術(shù)方面的難題。比如10張卡連接時(shí)候的計算能力損耗,在1張卡時(shí)就無(wú)需考慮;又如在功耗限制下運行的復雜計算也會(huì )成為可能。
在未來(lái),通過(guò)稀疏化計算,企業(yè)能夠有機會(huì )設計出更為復雜的模型,為產(chǎn)業(yè)應用創(chuàng )造新的機會(huì )。
目前,墨芯已在一些頭部互聯(lián)網(wǎng)公司進(jìn)入適配階段;在垂直行業(yè)市場(chǎng),墨芯也已經(jīng)與生命科學(xué)領(lǐng)域的頭部企業(yè)達成合作。
未來(lái),AI芯片和算法都需要往更通用和智能的方向發(fā)展。正如王維所說(shuō),我們不僅要關(guān)注芯片企業(yè)是如何發(fā)展起來(lái)的,也要關(guān)注AI本身是如何發(fā)展的。
最終,AI芯片的本質(zhì)是支撐和賦能算法。當AI芯片從1.0邁向2.0,軟硬融合將成為最重要的競爭力
評論