微軟揭曉Brainwave人工智能系統,可實(shí)現超低延遲
今日,微軟在 HotChips 大會(huì )上正式揭曉了 Brainwave 系統,該產(chǎn)品是微軟加入人工智能硬件競賽的首發(fā)產(chǎn)品。微軟表示這款高速度、低延遲的 AI 專(zhuān)用芯片系統可以為機器學(xué)習開(kāi)發(fā)者們提供超越 GPU 的性能。
本文引用地址:http://dyxdggzs.com/article/201708/363482.htm微軟的研究人員現場(chǎng)展示了 Brainwave 的威力:在使用英特爾最新的 Stratix 10 FPGA(現場(chǎng)可編程門(mén)陣列)芯片的情況下,Brainwave 運行 Gated Recurrent Unit(LSTM的變種)的浮點(diǎn)運算速度可高達 39.5 TFLOPS,并且不需要任何批量處理,即芯片可以即時(shí)處理每一項提交上去的請求,為機器學(xué)習系統提供實(shí)時(shí)的見(jiàn)解。
對于用戶(hù)來(lái)說(shuō),低延遲是大規模部署機器學(xué)習系統時(shí)必須滿(mǎn)足的一個(gè)要求,因為他們不會(huì )有太多耐心等待 APP 反應。
“我們需要‘即時(shí)AI’,因為你在提交請求后,會(huì )想立刻獲得反饋,不論是視頻播放、對話(huà),還是檢測網(wǎng)絡(luò )入侵者和異常狀況,你會(huì )期望 APP 都能即時(shí)反饋”,微軟研究所的工程師 Doug Burger 說(shuō)。
然而,之前的硬件加速機器學(xué)習系統相關(guān)的研究卻注重于犧牲延遲來(lái)實(shí)現高流量。Burger 認為,需要思考的是,在不對請求進(jìn)行批量處理時(shí),機器學(xué)習加速器的反應速度。“其他人給出的數字都注水了。”
由于 FPGA 屬于可編程芯片,它可以讓開(kāi)發(fā)者專(zhuān)門(mén)為各種功能對硬件進(jìn)行優(yōu)化設置,比如設置出可以快速處理神經(jīng)網(wǎng)絡(luò )所需的數學(xué)計算的硬件。微軟已在其數據中心安裝了數十萬(wàn)枚 FPGA。而這些 FPGA 已經(jīng)開(kāi)始使用 Brainwave,讓微軟的各種服務(wù)可以更迅速地支持人工智能功能。此外,微軟還將通過(guò)旗下 Azure 云服務(wù),向第三方客戶(hù)提供 Brainwave。
在這些 FPGA 上,Brainwave 會(huì )提前設置好一個(gè)經(jīng)過(guò)訓練的機器學(xué)習模型。之后,它們就可以被用來(lái)做識別文字、辨別圖像等機器學(xué)習任務(wù)了。對于一個(gè)較大的文件,Brainwave 的軟件可以將它分拆到多個(gè)芯片上進(jìn)行計算。而這個(gè)模型將永存與這些 FPGA 上,直到微軟選擇對其進(jìn)行升級。
微軟并不是唯一一家投資于加速機器學(xué)習硬件的公司。今年年初,谷歌就曾揭曉其機器學(xué)習訓練和運行的專(zhuān)用芯片——TPU(Tensor Processing Unit)的第二個(gè)版本。此外,還有多家初創(chuàng )公司正在開(kāi)發(fā)機器學(xué)習加速硬件。
然而,各方各界對于機器學(xué)習加速硬件的看法卻并不一樣。有些人認為,FPGA比專(zhuān)門(mén)為機器學(xué)習而設計的 ASIC(專(zhuān)用集成電路)效率更低,速度更慢。Burger 表示,他們在 FPGA 上所展現的性能足以反駁這一說(shuō)法,讓人們見(jiàn)識到FPGA 也可以提供高性能。
而且,今天微軟的展示的 Stratix 10 是一款全新芯片,還有與英特爾合作優(yōu)化的空間。據Burger計算,使用 Stratix 10 的 Brainwave 的運算速度最高應該可以實(shí)現 90 TFLOPS。
目前,Brainwave 只支持在微軟 CNTK 框架和谷歌 TensorFlow 框架下的模型。其團隊正開(kāi)發(fā)兼容 Caffe 等其他框架的 Brainwave 版本。微軟表示,未來(lái),第三方客戶(hù)將可以在 Brainwave 上運行任何模型,不過(guò)并未給出 Brainwave 全面上市的時(shí)間表。
評論