華為算力最強AI芯片商用:2倍于英偉達V100!開(kāi)源AI框架,對標TensorFlow和PyTorch
本文經(jīng)AI新媒體量子位(公眾號 ID: QbitAI)授權轉載,轉載請聯(lián)系出處。
本文引用地址:http://dyxdggzs.com/article/201908/404121.htm剛剛,華為業(yè)界算力最強的AI芯片正式商用。
并且宣布自研AI框架MindSpore開(kāi)源,直接對標業(yè)界兩大主流框架——谷歌的Tensor Flow、Facebook的Pytorch。
華為AI芯片昇騰910之前已經(jīng)發(fā)布,現在正式商用,對標英偉達Tesla V100,主打深度學(xué)習的訓練場(chǎng)景,跑分性能2倍于英偉達。
華為輪值董事長(cháng)徐直軍說(shuō),這是華為全棧全場(chǎng)景AI戰略的實(shí)踐體現,也希望進(jìn)一步實(shí)現華為新愿景:打造“萬(wàn)物互聯(lián)的智能世界”。
但毫無(wú)疑問(wèn),華為入局,自研AI計算架構,肯定會(huì )進(jìn)一步影響AI基礎技術(shù)和架構格局,特別是美國公司的壟斷。
MindSpore發(fā)布后,華為已經(jīng)實(shí)現了完整的AI生態(tài)鏈,加上此前發(fā)布的ModelArts開(kāi)發(fā)平臺、Atlas計算平臺,囊括了從芯片、框架、部署平臺到應用產(chǎn)品完整層級。
在當下這個(gè)大環(huán)境中,這些動(dòng)作也具備了自立自強、不受人掣肘的寓寄。
如今現狀,AI領(lǐng)域的關(guān)鍵技術(shù),比如算力、框架、算法等等,主要還是由少數幾家美國公司提供。
比如訓練芯片,主要由英偉達(GPU)、Google提供(TPU);框架則是Google的Tensor Flow、Facebook的Pytorch等成主導;原創(chuàng )AI算法的發(fā)明,也只是在少數幾個(gè)廠(chǎng)商或者研究機構手中。
這直接導致一些企業(yè)想要介入AI的時(shí)候,發(fā)現門(mén)檻很高,除了需要大量數據之外,還需要面臨算力稀缺、硬件昂貴、人才難找等問(wèn)題。
現在,華為要用實(shí)際行動(dòng)改變這一現狀。
AI領(lǐng)域的“鴻蒙OS”
MindSpore,與其他主流的框架不同,這是一款全場(chǎng)景的AI計算框架,也是一款“操作平臺”。
不僅僅可以用于云計算場(chǎng)景,也能夠應用到終端、邊緣計算場(chǎng)景中。
也不僅僅是一款推理(部署)框架,也可以用來(lái)訓練模型。
徐直軍表示,這背后可以實(shí)現統一架構,一次訓練,到處部署,可降低部署門(mén)檻。
從這個(gè)角度來(lái)看,MindSpore也可以視為AI領(lǐng)域的“鴻蒙OS”。
此外,這一框架面相的也不僅僅是開(kāi)發(fā)者,也面向領(lǐng)域專(zhuān)家、數學(xué)家、算法專(zhuān)家等等在AI中角色越來(lái)越重要的人群。
徐直軍介紹,MindSpore的界面上也更加友好,在表達AI問(wèn)題求解的方程式時(shí),更加便利,更易于算法的開(kāi)放與創(chuàng )新,推動(dòng)AI應用的普及。
用MindSpore可降低核心代碼量20%,開(kāi)發(fā)門(mén)檻大大降低,效率整體提升50%以上。
通過(guò)MindSpore框架自身的技術(shù)創(chuàng )新及其與昇騰處理器協(xié)同優(yōu)化,有效克服AI計算的復雜性和算力的多樣性挑戰,實(shí)現了運行態(tài)的高效,大大提高了計算性能。
除了昇騰處理器,MindSpore同時(shí)也支持GPU、CPU等其它處理器。
與此同時(shí),MindSpore也采用新AI編程語(yǔ)言,單機程序可分布式運行,是一個(gè)全場(chǎng)景框架。全場(chǎng)景是指MindSpore可以在包括公有云、私有云、各種邊緣計算、物聯(lián)網(wǎng)行業(yè)終端以及消費類(lèi)終端等環(huán)境上部署。
而且,這一框架將會(huì )開(kāi)源開(kāi)放,可靈活擴展第三方框架和芯片平臺。
當然,徐直軍說(shuō),如果用華為的昇騰系列芯片,效果會(huì )更好,可進(jìn)行全離線(xiàn)模式執行運算,充分發(fā)揮神經(jīng)網(wǎng)絡(luò )芯片算力,實(shí)現最佳性能搭配。
畢竟,MindSpore作為華為全棧全場(chǎng)景AI解決方案中的核心步驟,是首個(gè)Ascend Native開(kāi)源AI計算框架,會(huì )更適合達芬奇架構的AI芯片,尤其是昇騰910。
而且MindSpore針對現在越來(lái)越大的訓練模型做了更多的優(yōu)化,用戶(hù)無(wú)需了解并行運算的細節,只需了解單芯片部署,就可以在計算集群上進(jìn)行并行計算。
徐直軍表示,MindSpore會(huì )在明年第一季度正式開(kāi)源。
昇騰910正式商用
昇騰910,在2018年10月華為全連接大會(huì )期間曝光,采用華為自研的達芬奇架構,號稱(chēng)“算力最強的AI處理器”,采用7nm工藝制程,最大功耗為350W,實(shí)測310W。
此次發(fā)布用于上市商用,直接對標英偉達Tesla V100,主打深度學(xué)習的訓練場(chǎng)景,主要客戶(hù)面向AI數據科學(xué)家和工程師。
主要性能數據如下:
半精度為(FP 16):256 Tera FLOPS;
整數精度(INT 8):512 Tera FLOPS,128通道 全高清 視頻解碼器- H.264/265。
在去年全連接大會(huì )上,華為就和友商對比了一下,battle的參賽選手包括谷歌TPU v2、谷歌TPU v3、英偉達 V100和華為的昇騰910。
“可以達到256TFLOPS,比英偉達 V100還要高出1倍!”
相同的功耗下,昇騰910的算力是V100的兩倍,訓練速度更快,用戶(hù)需要得出訓練產(chǎn)出的時(shí)間會(huì )更短。在典型案例下,對比V100,昇騰910的計算速度可以提升50%-100%。
在典型的ResNet50 網(wǎng)絡(luò )的訓練中,昇騰910與MindSpore配合,與現有主流訓練單卡配合TensorFlow相比,顯示出接近2倍的性能提升。
而且徐直軍還在會(huì )后明確表示:價(jià)格還沒(méi)定,但肯定不會(huì )高!
全球格局下的華為AI進(jìn)展
2018年10月,在華為全連接大會(huì )上,徐直軍公布了華為全棧全場(chǎng)景 AI 戰略計劃,將數據獲取、訓練、部署等各個(gè)環(huán)節囊括在自己的框架之內,主要目的是提升效率,讓AI應用開(kāi)發(fā)更加容易和便捷。
全場(chǎng)景包括:消費終端 (Consumer Device)、公有云 (Public Cloud) 、私有云 (Private Cloud)、邊緣計算 (Edge Computing)、IoT行業(yè)終端 (Industrial IoT Device) 這5大類(lèi)場(chǎng)景。
重點(diǎn)在于全棧,包含基于達芬奇架構的昇騰系列芯片(Max、Lite、Mini、Tiny、Nano)、高度自動(dòng)化的算子開(kāi)發(fā)工具CANN、MindSpore框架和機器學(xué)習PaaS (平臺即服務(wù)) ModelArts。
隨著(zhù)昇騰910正式商用以及MindSpore框架正式推出,華為全棧全場(chǎng)景AI解決方案愈發(fā)完善,競爭力也會(huì )隨之上升。
而且,華為之AI,也不僅僅是關(guān)乎華為本身業(yè)務(wù),也應該從更加宏觀(guān)的角度去審視。
當下,AI落地已經(jīng)成為無(wú)可爭議的大趨勢,大方向。
但中美關(guān)系日趨緊張的情況下,中國到底如何,也引發(fā)了更多關(guān)注。
近日,Nature最新發(fā)表了一篇,名為“Will China lead the world in AI by 2030?”,提出問(wèn)題的同時(shí),也審視了中國AI發(fā)展的現狀。
文章中援引艾倫人工智能研究所數據顯示,在最頂級的10%高引用論文中,中國作者占比在2018年已經(jīng)達到26.5%,非常接近美國的29%。如果這一趨勢持續下去,中國將在今年超過(guò)美國。
需要場(chǎng)景?數據?金錢(qián)?人才?等等,這些都不差。
但為什么,卡脖子隱憂(yōu),AI領(lǐng)域依然存在。
核心還在于算力(芯片)與基礎技術(shù)。
Nature文章就指出,中國在人工智能的核心技術(shù)工具方面仍然落后。目前全世界的工業(yè)和學(xué)術(shù)界廣泛應用的開(kāi)源AI平臺TensorFlow和Caffe,由美國公司和組織開(kāi)發(fā)。
框架方面,百度的PaddlePaddle飛槳也不斷突破,雖然發(fā)展勢頭非常好,卻還是顯得勢單力簿。
更關(guān)鍵的是,中國在AI硬件方面的落后非常明顯。全球大多數領(lǐng)先的AI半導體芯片都是由美國公司制造的,如英偉達、英特爾、谷歌和AMD等。
中國工程院院士、西安交通大學(xué)人工智能與機器人研究所所長(cháng)鄭南寧,接受Nature采訪(fǎng)時(shí)說(shuō):“我們在設計可支持高級AI系統的計算芯片方面也缺乏專(zhuān)業(yè)知識。”
雖然國內也有不少公司在努力,比如阿里、百度、依圖、地平線(xiàn)等等,都涉足了AI芯片領(lǐng)域,但大部分都聚焦在終端SoC和推理上面,用于訓練的大型算力芯片并不多。
鄭南寧預計,中國可能需要5到10年才能達到美國和英國基礎理論和算法的創(chuàng )新水平,但中國會(huì )實(shí)現這一目標。
來(lái)自柏林智庫的政治學(xué)者Kristin Shi-Kupfer也表示,基礎理論和技術(shù)方面的貢獻,將是中國實(shí)現長(cháng)期AI目標的關(guān)鍵所在。
她同時(shí)強調,如果沒(méi)有在機器學(xué)習上沒(méi)有真正的突破性進(jìn)展,那么中國在人工智能領(lǐng)域的增長(cháng),將面臨發(fā)展上限。
所以,Nature的問(wèn)題:中國AI,到2030年能夠領(lǐng)先全球嗎?
今天華為給出一種解法,但一切還只是開(kāi)始。
你怎么看?
評論