<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 語(yǔ)言模型參數越多越好?DeepMind用700億打敗自家2800億,訓練優(yōu)化出「小」模型

語(yǔ)言模型參數越多越好?DeepMind用700億打敗自家2800億,訓練優(yōu)化出「小」模型

發(fā)布人:機器之心 時(shí)間:2022-04-09 來(lái)源:工程師 發(fā)布文章
給定固定的 FLOPs 預算,應該如何權衡模型大小和訓練 token 的數量?DeepMind 得出了與先前不同的結論。


最近一系列大型語(yǔ)言模型 (LLM) 正在崛起,其中最大的語(yǔ)言模型已經(jīng)擁有超過(guò) 5000 億個(gè)參數。這些大型自回歸 transformer 通過(guò)使用各種評估協(xié)議(例如零樣本、少樣本和微調),在許多任務(wù)中表現出令人印象深刻的性能。
然而訓練大型語(yǔ)言模型需要消耗巨大的計算和能源,并且這種消耗隨著(zhù)模型的增加而增加。在實(shí)踐中,研究者事先分配的訓練計算預算通常是預先知道的:有多少加速器可用以及我們想要使用它們多長(cháng)時(shí)間。通常這些大模型只訓練一次是可接受的,因此準確估計給定計算預算的最佳模型超參數至關(guān)重要。
Kaplan 等人研究 (2020) 表明,自回歸語(yǔ)言模型 (LM) 中的參數數量與其性能之間存在冪律關(guān)系。結果是該領(lǐng)域一直在訓練越來(lái)越大的模型,期望性能得到改善。Kaplan 等人(2020) 得出的一個(gè)值得注意的結論是,不應該將大型模型訓練到其可能的最低損失,以獲得計算的最佳化。
來(lái)自 DeepMind 的研究者得出了相同的結論,但他們估計大型模型可以訓練的 token 數應該比作者推薦的更多。具體來(lái)說(shuō),假設計算預算增加 10 倍,其他研究者建議模型的大小應該增加 5.5 倍,而訓練 token 的數量應該只增加 1.8 倍。相反,DeepMind 發(fā)現模型大小和訓練 token 的數量應該以相等的比例擴展。
圖片
論文地址:https://arxiv.org/pdf/2203.15556.pdf
繼 Kaplan 等人和 GPT-3 的訓練設置研究之后,近期大型模型的訓練 token 大約為 3000 億個(gè)(表 1),這與增加算力時(shí),主要采用增加模型大小結論一致。
圖片
在這項工作中,DeepMind 重新審視了這個(gè)問(wèn)題:給定固定的 FLOPs 預算,應該如何權衡模型大小和訓練 token 的數量?為了回答這個(gè)問(wèn)題,DeepMind 將最終的預訓練損失

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>