語(yǔ)言模型參數越多越好?DeepMind用700億打敗自家2800億,訓練優(yōu)化出「小」模型
給定固定的 FLOPs 預算,應該如何權衡模型大小和訓練 token 的數量?DeepMind 得出了與先前不同的結論。
最近一系列大型語(yǔ)言模型 (LLM) 正在崛起,其中最大的語(yǔ)言模型已經(jīng)擁有超過(guò) 5000 億個(gè)參數。這些大型自回歸 transformer 通過(guò)使用各種評估協(xié)議(例如零樣本、少樣本和微調),在許多任務(wù)中表現出令人印象深刻的性能。
然而訓練大型語(yǔ)言模型需要消耗巨大的計算和能源,并且這種消耗隨著(zhù)模型的增加而增加。在實(shí)踐中,研究者事先分配的訓練計算預算通常是預先知道的:有多少加速器可用以及我們想要使用它們多長(cháng)時(shí)間。通常這些大模型只訓練一次是可接受的,因此準確估計給定計算預算的最佳模型超參數至關(guān)重要。
Kaplan 等人研究 (2020) 表明,自回歸語(yǔ)言模型 (LM) 中的參數數量與其性能之間存在冪律關(guān)系。結果是該領(lǐng)域一直在訓練越來(lái)越大的模型,期望性能得到改善。Kaplan 等人(2020) 得出的一個(gè)值得注意的結論是,不應該將大型模型訓練到其可能的最低損失,以獲得計算的最佳化。
來(lái)自 DeepMind 的研究者得出了相同的結論,但他們估計大型模型可以訓練的 token 數應該比作者推薦的更多。具體來(lái)說(shuō),假設計算預算增加 10 倍,其他研究者建議模型的大小應該增加 5.5 倍,而訓練 token 的數量應該只增加 1.8 倍。相反,DeepMind 發(fā)現模型大小和訓練 token 的數量應該以相等的比例擴展。
論文地址:https://arxiv.org/pdf/2203.15556.pdf
繼 Kaplan 等人和 GPT-3 的訓練設置研究之后,近期大型模型的訓練 token 大約為 3000 億個(gè)(表 1),這與增加算力時(shí),主要采用增加模型大小結論一致。
在這項工作中,DeepMind 重新審視了這個(gè)問(wèn)題:給定固定的 FLOPs 預算,應該如何權衡模型大小和訓練 token 的數量?為了回答這個(gè)問(wèn)題,DeepMind 將最終的預訓練損失
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。