<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 我拍了拍CPU說(shuō):人工智能搞不搞?

我拍了拍CPU說(shuō):人工智能搞不搞?

發(fā)布人:電巢 時(shí)間:2022-11-22 來(lái)源:工程師 發(fā)布文章
image.png


在過(guò)去的數年間,人工智能技術(shù)得到了前所未有的爆發(fā)式的增長(cháng)。這主要歸功于萬(wàn)物互聯(lián)的浪潮帶來(lái)的海量的數據、芯片技術(shù)革新帶來(lái)的算力的飛躍,還有計算機和數據科學(xué)領(lǐng)域對算法的不斷的優(yōu)化。這也是我們常說(shuō)的驅動(dòng)AI技術(shù)發(fā)展的三大要素數據、算力和算法,而且這三大要素都是相互促進(jìn),缺一不可的。 那么作為芯片來(lái)說(shuō),它是承載這三大要素最重要的力量。除了人工智能專(zhuān)用芯片之外,其實(shí)還有很多通用的芯片類(lèi)型,比如說(shuō)GPU、FPGA、中央處理器CPU,這些芯片都在人工智能時(shí)代針對AI應用進(jìn)行了架構優(yōu)化,并且再次煥發(fā)了新生。今天我們就以英特爾的至強可擴展處理器為例,一起來(lái)看一下在云計算和數據中心領(lǐng)域,CPU 在人工智能時(shí)代的獨特優(yōu)勢。

對這些人工智能芯片說(shuō),有5個(gè)衡量因素,分別是芯片的性能、靈活性、同構性、成本和功耗。那么接下來(lái)結合這個(gè)來(lái)和大家一起來(lái)看一下英特爾的至強可擴展處理器的一些技術(shù)特點(diǎn),特別是它針對人工智能應用進(jìn)行的優(yōu)化和創(chuàng )新。那么這里既包含芯片指令集的擴展和硬件架構的升級,也包括軟件和生態(tài)系統的支持。

我們先來(lái)簡(jiǎn)單看一下英特爾的至強可擴展處理器的一些技術(shù)特點(diǎn)。去年六月,英特爾正式發(fā)布了它的第三代制強可擴展處理器,代號為Cooper lake。那么和它的前一代產(chǎn)品也就是Cascade Lake 相比,Cooper Lake 單芯片集成了最高28個(gè)處理器核心,每個(gè)8路服務(wù)器平臺最高可以支持224個(gè)處理器核心,每個(gè)核心的基礎頻率可以達到3.1G赫茲,單核最高頻率可以達到4.3G赫茲。此外它還集成了一些其他的架構升級,比如增強了對傳統DDR4內存的帶寬和容量的支持,并且將英特爾的UPI,也就是超級通道互聯(lián)的通道數量增加到了6個(gè),將CPU之間的通信帶寬和吞吐量提升了一倍。除此之外也提升了對硬件安全性、虛擬化還有網(wǎng)絡(luò )連接等等,這些數據中心常用技術(shù)的硬件支持等。值得我們注意的是,這個(gè)Cooper Lake 是特別針對4路或者是8路的服務(wù)器產(chǎn)品進(jìn)行打造的第三代至強可擴展處理器。

對于更加常見(jiàn)的單路和雙路服務(wù)器,英特爾也即將推出代號為Ice Lake 的處理器,它將基于英特爾最新的10納米工藝進(jìn)行制造,內核采用了sunny cove 的微架構。

image.png


值得注意的是,英特爾的第三代至強可擴展處理器就針對人工智能應用做了特別的架構優(yōu)化和設計。 一個(gè)是進(jìn)一步的優(yōu)化了英特爾的深度學(xué)習加速技術(shù)DL-Boost,首次引入了對BF16指令集的支持;另外一個(gè)就是增加了對第二代傲騰持久內存的支持。接下來(lái)我們就具體的來(lái)看一下,為什么這兩點(diǎn)提升對于A(yíng)I應用來(lái)說(shuō)特別的重要。

首先我們來(lái)看一下DL-Boost。從第二代至強開(kāi)始,英特爾就在CPU 里加入了深度學(xué)習加速技術(shù)。它的核心就是對AVX-512矢量神經(jīng)網(wǎng)絡(luò )指令的硬件支持,從而大幅提升了對AI 推理應用的加速。簡(jiǎn)單來(lái)說(shuō),它的本質(zhì)有兩點(diǎn),一個(gè)是低精度的數據表示不會(huì )對深度學(xué)習的推理結果和精度造成太大的影響,但是會(huì )極大的提升硬件的性能和效率;第二個(gè)就是可以為某些類(lèi)型的AI 應用。比如推理應用,專(zhuān)門(mén)設計更有效的指令集合硬件來(lái)支持這些應用的高效運行。那么在深度神經(jīng)網(wǎng)絡(luò )的應用里,使用低精度的數據表示已經(jīng)是一個(gè)研究比較成熟的領(lǐng)域了。相比使用32位浮點(diǎn)數進(jìn)行運算,我們可以采用更低的數據精度,甚至也可以采用整形數來(lái)進(jìn)行運算。比如對于很多應用來(lái)說(shuō),特別是涉及我們人類(lèi)感官的應用。比如看一個(gè)圖片,或者是聽(tīng)一段聲音等等。由于我們人類(lèi)的感知能力并沒(méi)有那么精確,所以推理的精確度稍許有那么一些差別,其實(shí)并沒(méi)有太大的關(guān)系,但是降低數據精度會(huì )對AI芯片的設計和性能帶來(lái)很多的好處。


比如可以在芯片面積不變的情況下,大幅提升運算單元的數量;或者在性能要求不變的情況下,采取更少的芯片面積,從而降低功耗。 此外,這樣也會(huì )減少數據傳輸的數據量,節約了帶寬,也提升了吞吐量。那么基于這個(gè)理論,就衍生出了很多非常有趣的AI芯片架構設計,比如一些AI的專(zhuān)用芯片都加入了對不同的數據精度的硬件支持。那么對于至強可擴展處理器來(lái)說(shuō)也是如此。比如AVX-512指令集,它就將數據位寬增加到了512位,這樣就可以在單位時(shí)間里處理更多的數據,這樣就可以在CPU上為AI應用提供更好的性能支持。

不僅如此,通過(guò)深度學(xué)習加速技術(shù),我們還可以將指令進(jìn)一步的打包。比如用一條指令就能完成之前三條指令才能完成的運算,這樣就成倍的提升了系統性能。第二代至強可擴展處理器里首次引入了深度學(xué)習加速技術(shù),它主要用來(lái)加速推理應用。那么從第三代至強開(kāi)始,英特爾又在DL-Boost 里加入了對BF16的硬件支持,從而兼顧了推理和訓練的加速。那么使用BF16有什么好處呢?和8位整形數相比,BF16的精度更高,而且有的大得多的動(dòng)態(tài)范圍。那么和32位浮點(diǎn)數相比呢,BF16雖然精度有所損失,但是損失并不多,動(dòng)態(tài)范圍也類(lèi)似,但是所需的數據位寬則要小很多??梢哉f(shuō)BF16這種數據表示可以在精度、面積、性能等衡量標準里取得非常好的折中。這也是為什么要在第三代至強可擴展處理器里支持這種數據表示的主要原因。


和前一代CPU相比,第三代至強可擴展處理器的AI推理性能可以提升高達1.9倍,訓練性能也可以提升達1.93倍。業(yè)界也有很多公司在使用和部署第三代至強可擴展處理器,以及前面介紹的深度學(xué)習加速技術(shù)。比如阿里云就利用對BF16的支持,將BERT模型的推理性能提升到原來(lái)的1.8倍以上,并且沒(méi)有準確率的下降。

說(shuō)完數據的計算,我們接下來(lái)再看一下數據的存儲。芯片設計的一個(gè)大的原則就是存儲數據的地方離使用數據的地方越近,那么性能就越高,功耗就越低。那么對于人工智能芯片來(lái)說(shuō),不管是對于訓練還是推理,都需要對大量的數據進(jìn)行處理。這一方面需要有大容量的存儲技術(shù)作為支持,另一方面也需要更大的內存帶寬以及更快的數據傳輸速度??傮w來(lái)說(shuō),我們在計算機里常見(jiàn)的存儲器類(lèi)型可以分成這么幾個(gè)類(lèi)別。一個(gè)是DRAM,也就是我們常說(shuō)的內存,它的性能最高,數據讀寫(xiě)的延時(shí)最低,但是容量十分有限,而且價(jià)格昂貴。更重要的是一旦斷電,DRAM里的數據就會(huì )丟失。相比之下像機械硬盤(pán)、固態(tài)硬盤(pán)之類(lèi)的存儲方式

雖然容量夠大,價(jià)格夠便宜,而且具備數據持久性。但是它最大的問(wèn)題就是訪(fǎng)問(wèn)速度。相比于DRAM來(lái)說(shuō)要慢幾個(gè)量級,所以很自然的我們就會(huì )想能否有另外一個(gè)量大實(shí)惠的存儲方式,既能有大容量、低延時(shí),也能保證數據的持久性,而且價(jià)格也可以接受。那么一個(gè)可行的方案呢,就是這個(gè)英特爾的傲騰Optane持久內存。奧騰持久內存就像是冰箱,它既有大的容量,又能保證數據的持久性,而且也能夠提供快速的數據讀寫(xiě)性能。傲騰的單條容量最高可以達到512G ,而且和傳統的DDR4內存的插槽相兼容。當搭配第三代至強可擴展處理器使用的時(shí)候,單路內存的總容量最高可以達到4.5TB,遠高于普通的DRAM內存。值得注意的是,傲騰還有多種工作模式。首先就是內存模式。這個(gè)時(shí)候它就和DRAM沒(méi)有本質(zhì)的區別,相當于對系統的內存進(jìn)行了一個(gè)擴展。此外它還有一個(gè)叫App direct的模式,可以實(shí)現較大內存容量和數據的持久性,這樣軟件就可以將DRAM和傲騰作為內存的兩層來(lái)進(jìn)行訪(fǎng)問(wèn)。硬盤(pán)之類(lèi)的存儲設備是按塊來(lái)讀寫(xiě)數據的。而傲騰是可以按字節來(lái)進(jìn)行選址的。這就好比我們去超市買(mǎi)西紅柿,可能一次要買(mǎi)很多很多,但是從冰箱里拿的時(shí)候可以用多少就拿多少,這樣就保證了數據讀寫(xiě)的效率和性能。

image.png


對數據進(jìn)行計算和存儲的硬件說(shuō)完了,我們再來(lái)看看軟件,以及圍繞著(zhù)軟硬件而搭建的生態(tài)系統。不管是什么芯片,不管是什么應用場(chǎng)景,最終使用它的都是開(kāi)發(fā)者,是人。所以軟件和生態(tài)也是非常重要的環(huán)節。舉例來(lái)說(shuō),英特爾有一個(gè)叫做Analytics Zoo 的開(kāi)源平臺,它將大數據分析人工智能應用,包括數據的處理、模型的訓練和推理等等這些過(guò)程進(jìn)行了一個(gè)整合。它可以把像這個(gè)Tensor Flow、 PyTorch或者是Open VINO這些框架,還有開(kāi)發(fā)工具和軟件等等集成到一個(gè)統一的數據分析流水線(xiàn)里。 用于分布式的訓練或者是預測,這樣讓用戶(hù)更方便的構建端到端的深度學(xué)習應用。這個(gè)分析流水線(xiàn)根據之前處理器進(jìn)行了深度的優(yōu)化,可以充分的利用前面介紹的那些針對AI應用進(jìn)行的計算和存儲架構的革新,并且可以方便的進(jìn)行計算集群的部署和擴展。


比如美的就采用了Analytics Zoo來(lái)搭建了工業(yè)視覺(jué)檢測的云平臺,來(lái)加速產(chǎn)品缺陷檢測的效率,并且將模型推理的速度提升了16倍。那么作為構建廣泛生態(tài)系統的一部分,英特爾硬件產(chǎn)品除了有至強可擴展處理器和傲騰持久內存,還有基于x e 架構的數據中心,專(zhuān)用的GPU系列,還有現場(chǎng)可編程芯片FPGA,以及一系列人工智能專(zhuān)用芯片。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: CPU

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>