谷歌首次展示新版語(yǔ)言模型BERT,參數達4810億個(gè)
MLPerf 訓練是一個(gè)完整的系統基準測試,用于測試機器學(xué)習模型、軟硬件等。上一輪 MLPerf 訓練基準(v1.0)發(fā)布于 5 個(gè)月前,與之相比,本次最佳基準測試結果提高了 2.3 倍,在軟硬件和系統規模方面都有了實(shí)質(zhì)性的改進(jìn)。
MLPerf 訓練基準的內容由封閉式和開(kāi)放式兩個(gè)部分組成。開(kāi)放式區別于封閉式的地方是,開(kāi)放式的參與者可以提交各種模型,而封閉式為確保一個(gè)相對公平的競爭環(huán)境,只允許提交相同的參考模型。
值得一提的是,谷歌在本次基準測試的開(kāi)放式部分提交了之前從未公開(kāi)過(guò)的新版 BERT 自然語(yǔ)言程序。
新的 BERT 程序規模比通行的 BERT 標準版本大了 3 個(gè)數量級,神經(jīng)網(wǎng)絡(luò )參數達到 4810 億個(gè),而標準版 BERT 只有 3.4 億個(gè)參數。更多的參數通常意味著(zhù)需要更多的計算能力。
據了解,為了得到更大的 BERT 模型,谷歌使用的計算機搭載了 2048 個(gè) TPU(Tensor Processing Unit)芯片。與英偉達的 GPU 不同,TPU 是谷歌針對機器學(xué)習專(zhuān)門(mén)定制的芯片。此“2048-TPU 系統”目前可以通過(guò)谷歌云服務(wù)獲得。
谷歌表示,這一新穎的語(yǔ)言模型反映了 AI 規模日益增長(cháng)的重要性。
谷歌還說(shuō),其能夠以 63% 的效率運行龐大的 BERT 模型,這比英偉達和微軟共同開(kāi)發(fā)的 Megatron-Turing 語(yǔ)言模型 52% 的效率要好。該效率是通過(guò)相對于理論容量每秒執行的浮點(diǎn)運算數量來(lái)衡量的。
構建越大的 AI 深度學(xué)習程序,越需要使用更多的 GPU 芯片或新型加速器芯片。研究人員認為,程序的準確性隨著(zhù) AI 規模的增加而增加。
谷歌機器學(xué)習基礎設施負責人阿魯沙·塞爾萬(wàn)(Aarush Selvan)說(shuō):“我們一直在確保向 MLPerf 提交的文件與自身內部需求以及機器學(xué)習行業(yè)的需求完全一致。培訓 AI 大模型在谷歌內部變得越來(lái)越重要。其是我們研究和生產(chǎn)的一大重點(diǎn),也是我們的云客戶(hù)所關(guān)注的重點(diǎn)?!?br />
塞爾萬(wàn)還說(shuō)道,AI 大模型有著(zhù)成百上千億個(gè),甚至超過(guò)萬(wàn)億的參數。在 MLPerf 競賽中有某種大型基準是非常有好處的,MLCommons 應該考慮更多的大模型來(lái)衡量大規模培訓的表現,像 ResNet-50 這樣較老、較小的網(wǎng)絡(luò )“只能給我們提供一個(gè)代理”。
MLCommons 的執行董事大衛·坎特(David Kanter)對此表示,大模型的建立需要所有成員共同決定。他同時(shí)指出,使用小型神經(jīng)網(wǎng)絡(luò )作為測試,能夠讓更多的成員參與競爭。這有助于為整個(gè)社區生產(chǎn)更多有價(jià)值的工程產(chǎn)品,并幫助推動(dòng)行業(yè)不斷向前發(fā)展。
“基準的關(guān)鍵是要公平和有代表性,而且也得考慮到經(jīng)營(yíng)者的承受能力,不能讓其破產(chǎn)。從理論上講,我們可以把 GPT-3 作為 MLPerf 基準,但培訓 GPT-3 相當昂貴,需要數千萬(wàn)美元?!笨蔡匮a充說(shuō)。據悉,GPT-3 是 OpenAI 在 2020 年推出的有著(zhù) 1750 億參數的自然語(yǔ)言模型。
此外,MLPerf 標準測試的代碼對每個(gè)人都是開(kāi)放的,任何 AI 研究人員都可以復制測試結果進(jìn)行重新驗證。
谷歌今年早些時(shí)候在高度并行化神經(jīng)網(wǎng)絡(luò )方面做了一定研究,其中概述的設計與本次展示的巨型 BERT 模型類(lèi)似。該公司認為,巨型 BERT 模型經(jīng)過(guò)訓練,可以產(chǎn)生更具準確性的結果。
在封閉式部分測試中,谷歌使用了較小的 BERT 模型。同時(shí),為了達到與其他供應商在封閉式部分相同的準確性,谷歌還使用了較少的文本數據樣本。封閉式部分要求一個(gè)程序訓練近 5 億個(gè)令牌序列,每個(gè)序列的長(cháng)度大多為 128 個(gè)令牌。谷歌的程序只使用了大約 2000 萬(wàn)個(gè)令牌序列,每個(gè)序列長(cháng)度為 512 個(gè)令牌。
塞爾萬(wàn)說(shuō),谷歌打算在未來(lái)繼續提交 MLPerf 的封閉式部分基準?!懊髂昊蛟S將看到所有人回到封閉式賽區,雖然不能保證,但我們計劃那樣做?!彼f(shuō)。
整體來(lái)看,MLPerf 訓練基準(v1.1)的結果進(jìn)一步推動(dòng)了 MLCommons 的目標,即通過(guò)比較機器學(xué)習系統、軟件和解決方案,提供基準和指標,使行業(yè)競爭環(huán)境更加公平。
“通過(guò)對體系結構、系統規模、軟件、模型劃分等方面的優(yōu)化,”坎特說(shuō),“供應商正設法加速神經(jīng)網(wǎng)絡(luò )的性能,其速度比摩爾定律的歷史軌跡快 11 倍?!?br />
據了解,本次的基準測試共有 14 個(gè)組織參與,包括微軟 Azure、百度、戴爾、富士通、技嘉、谷歌、Graphcore、HabanaLabs、HPE、浪潮、聯(lián)想、英偉達、三星和超微,發(fā)布的同行評審結果數量超過(guò) 185 個(gè)。
MLCommons 與其合作伙伴,包括全球技術(shù)提供商、學(xué)者和研究人員,通過(guò)各種方式為整個(gè)機器學(xué)習行業(yè)構建工具。
“回顧 2018 年的第一輪 MLPerf 訓練,我們一些基準的性能提高了 30 倍,”坎特說(shuō),“這種性能的快速增長(cháng)將激發(fā)出新的機器學(xué)習創(chuàng )新,最終使社會(huì )受益?!?/span>
-End-
參考:
https://www.zdnet.com/article/google-uses-mlperf-competition-to-showcase-performance-on-gigantic-version-of-bert-language-model/
https://mlcommons.org/en/news/mlperf-training-v11/
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
電機保護器相關(guān)文章:電機保護器原理