<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開(kāi)源大模型排行榜

擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開(kāi)源大模型排行榜

發(fā)布人:機器之心 時(shí)間:2023-07-24 來(lái)源:工程師 發(fā)布文章

一眨眼,開(kāi)源大模型又進(jìn)步了。谷歌、OpenAI真的沒(méi)有護城河?

圖片


「我就午休了 30 分鐘,我們的領(lǐng)域又變了?」在看到最新的開(kāi)源大模型排行榜后,一位 AI 領(lǐng)域的創(chuàng )業(yè)者發(fā)出了靈魂追問(wèn)。
圖片
排行榜鏈接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
上圖紅框中的「新秀」是來(lái)自 Stability AI 和 CarperAI lab 的兩個(gè)大模型:FreeWilly 1 和 FreeWilly 2。剛剛,它們超越了 Meta 三天前發(fā)布的 Llama-2-70b-hf,成功登頂 HuggingFace 的 Open LLM 排行榜榜首。
更引人注目的是,FreeWilly 2 在很多基準上還擊敗了 ChatGPT(GPT-3.5),成為首個(gè)真正可以和 GPT-3.5 相抗衡的開(kāi)源大模型,這是 Llama 2 都沒(méi)有做到的事情。
圖片
FreeWilly 1 基于原始的 LLaMA 65B 基礎模型構建,并且在標準 Alpaca 格式下,使用新的合成數據集進(jìn)行了仔細的有監督微調(SFT)。FreeWilly2 則基于最新的 LLaMA 2 70B 基礎模型構建。
從 Stability AI 發(fā)布的博客中,我們可以看到這兩個(gè)新模型的一些細節:
數據來(lái)源
FreeWilly 模型的訓練方法直接受到了微軟在其論文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首創(chuàng )的方法的啟發(fā)。雖然 FreeWilly 的數據生成過(guò)程與之相似,但二者在數據來(lái)源方面存在差異。
FreeWilly 的數據集包含了 60 萬(wàn)個(gè)數據點(diǎn)(大約是原始 Orca 論文使用的數據集大小的 10%),它是通過(guò)以下由 Enrico Shippole 創(chuàng )建的高質(zhì)量指令數據集來(lái)啟發(fā)語(yǔ)言模型生成的:

  • COT Submix Original
  • NIV2 Submix Original
  • FLAN 2021 Submix Original
  • T0 Submix Original


采用這種方法,研究者使用了一個(gè)較簡(jiǎn)單的 LLM 模型生成了 50 萬(wàn)個(gè)示例,并使用一個(gè)更復雜的 LLM 模型生成了額外的 10 萬(wàn)個(gè)示例。為了確保公平比較,他們仔細篩選了這些數據集,并刪除了來(lái)源于評估基準測試的示例。盡管訓練樣本數量?jì)H為原始 Orca 論文的 1/10(相比原始論文大大降低了訓練模型的成本和碳排放),但由此產(chǎn)生的 FreeWilly 模型在各種基準測試中表現出色,驗證了他們采用合成數據集的方法的有效性。
性能數據

為了對這些模型進(jìn)行內部評估,研究者使用了 EleutherAI 的 lm-eval-harness 基準,并加入了 AGIEval。
其中,lm-eval-harness 基準由 EleutherAI 非盈利人工智能研究實(shí)驗室創(chuàng )建,前面提到的 HuggingFace Open LLM 排行榜背后運行的就是該基準,它會(huì )在 Hugging Face 計算集群的空閑周期中運行評估,并將結果存儲在數據集中,然后在在線(xiàn)排行榜空間上顯示。
AGIEval 則由微軟創(chuàng )建,專(zhuān)門(mén)用于評估基礎模型在「以人為本」(human-centric)的標準化考試中的表現,比如數學(xué)競賽、律師資格考試。
在許多方面,兩個(gè) FreeWilly 模型表現都非常出色,包括復雜的推理、理解語(yǔ)言的微妙之處,以及回答涉及專(zhuān)業(yè)領(lǐng)域(如法律和數學(xué)問(wèn)題)的復雜問(wèn)題。
兩個(gè)模型在 lm-eval-harness 基準上的評估結果如下(這些 FreeWilly 測試結果是由 Stability AI 研究人員來(lái)評估的):
圖片
二者在 AGIEval 基準上的表現如下(全部是 0-shot):
圖片
此外,他們還在 GPT4ALL 基準上對兩個(gè)模型進(jìn)行了測試(全部是 0-shot):
圖片
總體來(lái)看,這兩個(gè)模型的性能表現都非常優(yōu)秀,進(jìn)一步縮小了與 ChatGPT 等頂級 AI 大模型的差距。想要獲取模型的同學(xué)可以點(diǎn)擊以下鏈接。
FreeWilly 1:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensorFreeWilly 2:https://huggingface.co/stabilityai/FreeWilly2
從各方反應來(lái)看,FreeWilly 模型的出現給大家帶來(lái)了一點(diǎn)小小的震撼,因為它們來(lái)得實(shí)在是太快了,畢竟 Llama 2 才剛剛推出 3 天,排行榜位置都沒(méi)坐熱。有位研究者表示,他最近剛做了眼科手術(shù),一個(gè)星期沒(méi)看新聞,但感覺(jué)自己已經(jīng)昏迷了一年。所以,這是一段「不能眨眼」的時(shí)期。
圖片
不過(guò),需要注意的是,雖然兩個(gè)模型都是開(kāi)放獲取的,但和 Llama 2 不同,它們是以非商業(yè)許可的形式發(fā)布的,僅可用于研究目的。
圖片
然而,這樣的做法引起了網(wǎng)友質(zhì)疑。
圖片
對此,Stability AI的研究者回復說(shuō),這種情況(僅用于研究目的)只是暫時(shí)的,未來(lái),FreeWilly 有望像 Llama 2 一樣允許商用。
圖片
此外,也有人對測試采用的基準產(chǎn)生了質(zhì)疑:
圖片
這也是當前一個(gè)比較棘手的問(wèn)題。此前,Falcon 模型在 HuggingFace 排行榜上碾壓 Llama 的事件備受爭議,后來(lái),該事件徹底反轉,事實(shí)證明 Llama 并未被 Falcon 碾壓,HuggingFace 也為此重寫(xiě)了排行榜代碼。在大模型層出不窮的今天,如何有效地評估這些模型依然是一個(gè)值得討論的問(wèn)題。因此,對于這些登頂排行榜的模型,我們有必要保持更加謹慎的態(tài)度,等待更多的評測結果出爐。
參考鏈接:https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models?utm_source=twitter&utm_medium=website&utm_campaign=announcement



*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>