<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > 開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

作者：時(shí)間：2023-12-12 來(lái)源：量子位

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

一條神秘磁力鏈接引爆整個(gè) AI 圈，現在，正式測評結果終于來(lái)了：

本文引用地址：http://dyxdggzs.com/article/202312/453814.htm

首個(gè)開(kāi)源 MoE 大模型 Mixtral 8x7B，已經(jīng)達到甚至超越了 Llama 2 70B 和 GPT-3.5 的水平。

（對，就是傳聞中 GPT-4 的同款方案。）

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

并且由于是稀疏模型，處理每個(gè) token 僅用了 12.9B 參數就做到了這般成績(jì)，其推理速度和成本也與 12.9B 的密集模型相當。

消息一出，再次在社交媒體上掀起討論熱潮。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

OpenAI 創(chuàng )始成員 Andrej Karpathy 第一時(shí)間趕到現場(chǎng)整理起了筆記，還高亮出了重點(diǎn)：這家“歐版 OpenAI”透露出的最強模型，還只是“中杯”。

p.s. Mixtral 8×7B 甚至只是小杯……

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

英偉達 AI 科學(xué)家 Jim Fan 則贊說(shuō)：

每個(gè)月都會(huì )有十幾個(gè)新的模型冒出來(lái)，但真正能經(jīng)得住檢驗的卻寥寥無(wú)幾，能引發(fā)大家伙熱烈關(guān)注的就更少了。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

并且這波啊，不僅是模型背后公司 Mistral AI 大受關(guān)注，也帶動(dòng) MoE（Mixture of Experts）再次成為開(kāi)源 AI 社區的最火議題。

HuggingFace 官方就趁熱發(fā)布了一篇 MoE 的解析博文，同樣打出了“轉發(fā)如潮”的效果。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

值得關(guān)注的是，Mistral AI 的最新估值已經(jīng)沖破 20 億美元，在短短 6 個(gè)月中增長(cháng)了 7 倍多……

基本超越 Llama 2 70B

說(shuō)起來(lái)，Mistral AI 這家公司也是不走尋常路。隔壁大廠(chǎng)前腳剛轟轟烈烈搞發(fā)布會(huì )，慢慢悠悠發(fā)模型，他們可倒好，直接來(lái)了個(gè)程序顛倒：

先甩鏈接開(kāi)放下載，又給 vLLM 項目（一個(gè)大模型推理加速工具）提了 PR，最后才想起來(lái)發(fā)布技術(shù)博客給自家模型整了個(gè)正經(jīng)官宣。

△ 模型一開(kāi)始是醬嬸發(fā)布的

那么還是先來(lái)看看，官方給出了哪些信息，與這兩天吃瓜群眾自己扒出來(lái)的細節有何不同。

首先，官方自信地表示：

Mixtral 8×7B 在大多數基準測試中都優(yōu)于 Llama 2 70B，推理速度快了 6 倍。
它是最強大的、具有寬松許可的開(kāi)放權重模型，也是最佳性?xún)r(jià)比之選。

具體來(lái)說(shuō)，Mixtral 采用了稀疏混合專(zhuān)家網(wǎng)絡(luò )，是一個(gè) decoder-only 的模型。在其中，前饋塊會(huì )從 8 組不同的參數組中進(jìn)行選擇 ——

也就是說(shuō)，實(shí)際上，Mixtral 8×7B 并不是 8 個(gè) 7B 參數模型的集合，僅僅是 Transformer 中的前饋塊有不同的 8 份。

這也就是為什么 Mixtral 的參數量并不是 56B，而是 46.7B。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

其特點(diǎn)包括以下幾個(gè)方面：

在大多數基準測試中表現優(yōu)于 Llama 2 70B，甚至足以擊敗 GPT-3.5
上下文窗口為 32k
可以處理英語(yǔ)、法語(yǔ)、意大利語(yǔ)、德語(yǔ)和西班牙語(yǔ)
在代碼生成方面表現優(yōu)異
遵循 Apache 2.0 許可（免費商用）

具體測試結果如下：

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

另外，在幻覺(jué)問(wèn)題方面，Mixtral 的表現也由于 Llama 2 70B：

在 TruthfulQA 基準上的成績(jì)是 73.9% vs 50.2%；在 BBQ 基準上呈現更少的偏見(jiàn)；在 BOLD 上，Mixtral 顯示出比 Llama 2 更積極的情緒。

此次與 Mixtral 8×7B 基礎版本一起發(fā)布的，還有 Mixtral 8x7B Instruct 版本。后者經(jīng)過(guò) SFT 和 DPO 優(yōu)化，在 MT-Bench 上拿到了 8.3 的分數，跟 GPT-3.5 差不多，優(yōu)于其他開(kāi)源大模型。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

目前，Mistral 官方已經(jīng)宣布上線(xiàn) API 服務(wù)，不過(guò)還是邀請制，未受邀用戶(hù)需要排隊等待。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

值得關(guān)注的是，API 分為三個(gè)版本：

小小杯（Mistral-tiny），對應模型是 Mistral 7B Instruct；
小杯（Mistral-small），對應模型是這次發(fā)布的 Mixtral 8×7B；
中杯（Mistral-medium），對應的模型尚未公布，但官方透露其在 MT-Bench 上的得分為 8.6 分。

有網(wǎng)友直接把 GPT-4 拉過(guò)來(lái)對比了一下?？梢钥吹?，中杯模型在 WinoGrande（常識推理基準）上的得分超過(guò)了 GPT-4。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

價(jià)格方面，小小杯到中杯的輸入和輸出價(jià)格分別是每一百萬(wàn) token0.14~2.5 歐元和 0.42~7.5 歐元不等，嵌入模型則是 0.1 歐元每百萬(wàn) token（1 歐元約合 7.7 人民幣）。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

而在線(xiàn)版本，目前還只能到第三方平臺（Poe、HuggingFace 等）體驗。

能看懂中文，但不太愿意說(shuō)

雖然官方通告中并沒(méi)有說(shuō)支持中文，但我們實(shí)測（HuggingFace Chat 中的在線(xiàn)版，模型為 Instruct 版本）發(fā)現，Mixtral 至少在理解層面上已經(jīng)具備一定中文能力了。

生成層面上，Mixtral 不太傾向于用中文來(lái)回答，但如果指明的話(huà)也能得到中文回復，不過(guò)還是有些中英混雜的情況。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

面對更多的“弱智吧”問(wèn)題，Mixtral 的回答雖中規中矩，但看上去至少已經(jīng)理解了字面含義。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

數學(xué)方面，面對經(jīng)典的雞兔同籠問(wèn)題，Mixtral 的回答從過(guò)程到結果都完全正確。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

即使是高等數學(xué)問(wèn)題，比如復雜的函數求導，Mixtral 也能給出正確答案，更難能可貴的是過(guò)程沒(méi)什么問(wèn)題。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

而此次的官方通告中專(zhuān)門(mén)強調了 Mixtral 的代碼能力很強，所以也受到了我們的重點(diǎn)考察。

一道困難難度的 LeetCode 下來(lái)，Mixtral 給出的代碼一次就通過(guò)了測試。

給你一個(gè)未排序的整數數組 nums，請你找出其中沒(méi)有出現的最小的正整數。
請你實(shí)現時(shí)間復雜度為 O (n) 并且只使用常數級別額外空間的解決方案。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

但隨著(zhù)我們繼續提問(wèn)，Mixtral 的回答一不小心暴露了自己可能專(zhuān)門(mén)針對 LeetCode 做過(guò)訓練，而且還是中文版 LC。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

為了更加真實(shí)地展示 Mixtral 的代碼能力，我們轉而讓它編寫(xiě)實(shí)用程序 —— 用 JS 寫(xiě)一個(gè) Web 版計算器。

經(jīng)過(guò)幾輪調整之后，雖然按鈕的布局有些奇怪，但基本的四則運算已經(jīng)可以完成了。

此外我們會(huì )發(fā)現，如果在同一個(gè)對話(huà)窗口中不斷補充新的要求，Mixtral 的表現可能會(huì )有所下降，出現代碼格式混亂等問(wèn)題，開(kāi)啟新一輪對話(huà)后則會(huì )恢復正常。

開(kāi)源大模型超越 GPT-3.5！爆火 MoE 實(shí)測結果出爐，網(wǎng)友：OpenAI 越來(lái)越?jīng)]護城河了

除了 API 和在線(xiàn)版本，Mistral AI 還提供了模型下載服務(wù)，可以用

關(guān)鍵詞： OpenAI ChatGPT AI

評論

相關(guān)推薦

大嘴業(yè)話(huà)-AI目前市場(chǎng)分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

江波龍DDR5 系列 RDIMM 產(chǎn)品助力AI發(fā)展

網(wǎng)絡(luò )與存儲江波龍存儲 AI | 2024-05-17

“破局AI開(kāi)發(fā)，釋放邊緣算力開(kāi)發(fā)者訪(fǎng)談”，干貨滿(mǎn)滿(mǎn)！

視頻 intel AI OpenVINO | 2021-06-10

外媒：OpenAI保密協(xié)議引發(fā)爭議，CEO回應并致歉

智能計算 OpenAI AI 隱私 | 2024-05-20

古爾曼：蘋(píng)果在 AI 時(shí)代需要進(jìn)化，錯誤區分了 iPad 與 Mac 產(chǎn)品

智能計算古爾曼蘋(píng)果 Ai iPad Mac | 2024-05-20

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

WTC-AI太陽(yáng)能熱水器電路圖

設計方案 WTC-AI 太陽(yáng)能熱水器電路圖 | 2012-07-24

瑞薩電子AI單元解決方案成功提高GE醫療（日本）日野工廠(chǎng)的生產(chǎn)力

winni945 | 2018-09-12

CSR8670CSR8675智能語(yǔ)音Alexa藍牙方案開(kāi)發(fā)

資源下載 AI 智能語(yǔ)音 | 2017-12-14

清華大學(xué)電子系主任汪玉教授和產(chǎn)業(yè)界、投資界共話(huà)AI

智能計算 AI | 2024-05-20

萬(wàn)家樂(lè )JSYZ5-AI燃氣熱水器電路圖

設計方案電路圖熱水器燃氣 JSYZ5-AI 萬(wàn)家樂(lè ) | 2013-01-17

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

如何快速搭建手寫(xiě)體識別演示系統

視頻 digikey AI 手寫(xiě)體識別 | 2022-07-29

微軟計劃為客戶(hù)提供AMD旗艦AI芯片方案

智能計算微軟 AMD AI 芯片 | 2024-05-20

海聯(lián)達（Aigale）Ai-HD1 無(wú)線(xiàn)全高清套件拆解

zhuwei0710 | 2013-04-28

谷歌與OpenAI競相升級的背后——生成式AI市場(chǎng)機會(huì )引發(fā)關(guān)注

智能計算谷歌 OpenAI 生成式AI | 2024-05-20

WTC-AI型太陽(yáng)能熱水器電路圖

設計方案電子電路圖，WTC-AI 太陽(yáng)能熱水器電路熱水器 | 2012-07-30

平臺算力超100 TOPS，Lunar Lake將為80款AI PC新機提供動(dòng)力

智能計算 Lunar Lake AI PC | 2024-05-21

AI驅動(dòng)的嵌入式聲音和振動(dòng)識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

江波龍應用于A(yíng)I領(lǐng)域的存儲AQUILA系列企業(yè)級DDR4 RDIMM

網(wǎng)絡(luò )與存儲江波龍 AI 存儲 | 2024-05-17

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來(lái)頭？

視頻 AI 機器人 | 2021-02-26

當《她》不再是未來(lái)

智能計算人工智能 chatgpt-4o OpenAI | 2024-05-17

消息稱(chēng)戴爾獲特斯拉AI服務(wù)器大單

智能計算戴爾特斯拉 AI 服務(wù)器大 | 2024-05-20

釋說(shuō)芯語(yǔ)16：硬科技：構建企業(yè)未來(lái)之路（附PPT）

jackwang | 2018-10-22

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>