Orca LLM:模擬 ChatGPT 的推理過(guò)程
推薦:使用NSDT場(chǎng)景編輯器快速搭建3D應用場(chǎng)景介紹
在大型語(yǔ)言模型(LLM)領(lǐng)域,人們一直在追求在不影響其效率的情況下增強小型模型的功能。傳統的方法是使用模仿學(xué)習,其中較小的模型從大型基礎模型(LFM)生成的輸出中學(xué)習。然而,這種方法受到一些挑戰的損害,包括來(lái)自淺層LFM輸出的有限模仿信號,小規模的同質(zhì)訓練數據以及缺乏嚴格的評估。這通常會(huì )導致較小的模型模仿LFM的風(fēng)格,而不是推理過(guò)程。
論文Orca:從GPT-4的復雜解釋痕跡中逐步學(xué)習介紹了Orca,這是一個(gè)13億參數模型,旨在模仿GPT-4等大型基礎模型(LFM)的推理過(guò)程。與傳統的大型語(yǔ)言模型(LLM)不同,Orca采用獨特的培訓方法,將漸進(jìn)式學(xué)習和教師協(xié)助相結合,以克服較小的學(xué)生模型與較大的學(xué)生模型之間的能力差距。
培訓方法
逆戟鯨的訓練過(guò)程包括兩個(gè)階段。
在第一階段,逆戟鯨接受 FLAN-5M 訓練,其中包括 ChatGPT 增強。這個(gè)中級助教有助于彌合 Orca 和 GPT-4 之間的容量差距,后者的參數大小要大得多。通過(guò)利用 ChatGPT 的功能,Orca 受益于改進(jìn)的模仿學(xué)習性能。
在第二階段,逆戟鯨接受 FLAN-1M 的訓練,其中包括 GPT-4 增強。這種漸進(jìn)式學(xué)習方法遵循課程學(xué)習范式,學(xué)生模式從更簡(jiǎn)單的例子中學(xué)習,然后再處理更具挑戰性的例子。通過(guò)逐漸讓逆戟鯨接觸越來(lái)越復雜的推理和逐步解釋?zhuān)撃P驮鰪娏似渫评砟芰湍7履芰Α?/p>優(yōu)勢和貢獻
與傳統的LLM相比,Orca的培訓方法具有幾個(gè)優(yōu)勢。
首先,它通過(guò)利用中級教師模型解決了能力差距問(wèn)題,使Orca能夠從更有能力的來(lái)源學(xué)習。這種方法已被證明可以提高較小學(xué)生模型的模仿學(xué)習性能。
其次,Orca訓練的漸進(jìn)式學(xué)習方面使模型能夠逐步建立其知識。通過(guò)從更簡(jiǎn)單的例子開(kāi)始,逐漸引入更復雜的例子,Orca為推理和解釋的生成奠定了更堅實(shí)的基礎。
此外,Orca模仿GPT-4等LFM的推理過(guò)程的能力為提高各種任務(wù)的性能開(kāi)辟了可能性。通過(guò)利用 GPT-4 的解釋軌跡和分步思維過(guò)程提供的豐富信號,Orca 獲得了寶貴的見(jiàn)解并提高了自己的能力。
性能基準Orca在復雜的零鏡頭推理基準測試中表現出色。它的性能優(yōu)于傳統的最先進(jìn)的指令調整模型,如Vicuna-13B,在Big-Bench Hard(BBH)等基準上超過(guò)100%,在A(yíng)GIEval上超過(guò)42%。此外,Orca 在 BBH 基準測試中取得了與 ChatGPT 相同的分數,并在 SAT、LSAT、GRE 和 GMAT 等專(zhuān)業(yè)和學(xué)術(shù)考試中表現出有競爭力的表現??紤]到這些是沒(méi)有思維鏈的零鏡頭設置,這尤其令人印象深刻,而且 Orca 在落后于 GPT-4 的同時(shí)仍然具有競爭力。
影響和未來(lái)方向逆戟鯨的發(fā)展代表了LLM領(lǐng)域的重大進(jìn)步。通過(guò)從豐富的信號中學(xué)習并模仿LFM的推理過(guò)程,Orca能夠以高度的準確性執行復雜的推理任務(wù)。這具有廣泛的影響,特別是在需要復雜推理和解決問(wèn)題的領(lǐng)域。
此外,這項研究表明,從分步AI模型解釋中學(xué)習是提高模型能力的一個(gè)有希望的方向。這為法學(xué)碩士領(lǐng)域的研究和開(kāi)發(fā)開(kāi)辟了新的途徑。
結論
Orca提出了一種訓練大型語(yǔ)言模型的新方法,將漸進(jìn)式學(xué)習和教師協(xié)助相結合,以增強模仿學(xué)習。通過(guò)利用中級教師模型,逐步將學(xué)生模型暴露給更復雜的例子,Orca克服了能力差距,提高了推理和解釋生成能力。該論文的發(fā)現有助于模仿學(xué)習技術(shù)的進(jìn)步,并對未來(lái)語(yǔ)言模型的發(fā)展產(chǎn)生影響。
原文鏈接:Orca LLM:模擬 ChatGPT 的推理過(guò)程 (mvrlink.com)
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。