DeepSeek的一次小更新 堪比發(fā)布新模型
一個(gè)好消息,時(shí)隔倆月, DeepSeek 終于更新了。
本文引用地址:http://dyxdggzs.com/article/202503/468676.htm就在昨天晚上, DeepSeek 一聲不吭往 Hugging Face 上扔了個(gè) DeepSeek -V3-0324 模型。
模型參數 6850 億,跟上一個(gè)版本的 V3 ( 6710 億 )相差不大,采用 MoE 架構,還支持了更開(kāi)放的 MIT 開(kāi)源協(xié)議。
根據官方更新的版本說(shuō)明, DeepSeek -V3-0324 主要是針對推理能力和前端開(kāi)發(fā)能力進(jìn)行了加強,寫(xiě)作風(fēng)格實(shí)現了跟 R1 對齊,另外還有一些其他方面的小優(yōu)化。
現在打開(kāi) DeepSeek 官網(wǎng),把深度思考模式關(guān)掉就能直接用上 V3-0324 。
不過(guò)有一說(shuō)一,雖然 V3-0324 僅僅只是 V3 的小版本升級,并不是大伙兒期待已久的 V4 或者 R2 ,且官方賬號也沒(méi)有發(fā)布任何跟模型有關(guān)的信息。
但也絲毫不妨礙, V3-0324 一上線(xiàn),就有人說(shuō)他的代碼能力,直追克勞德。
新版本的模型剛一上傳,就登上了 Hugging Face 的趨勢榜單。
在國外大模型競技場(chǎng) KCORES 的測評中, V3-0324 的代碼能力得分 328.3 ,超過(guò)了普通版的 Claude 3.7 Sonnet 的 322.3 分,接近 Claude 3.7 Sonnet 思維鏈版本的 334.8 分,排名第三。
圖源 @karminski 牙醫
重點(diǎn)是,排名在前面的模型壓根就沒(méi)幾個(gè)開(kāi)源免費的, V3-0324 可謂是一枝獨秀。
所以在 V3-0324 上線(xiàn)不到一天的時(shí)間里,就已經(jīng)有很多老哥迫不及待上手測評了一波。
這么說(shuō)吧, V3-0324 在這些人手里,已經(jīng)成了拳打 o3-mini ,腳踢 Claude 3.7 Sonnet 的存在。
經(jīng)典的小球彈跳測試中,這位老哥把 V3-0324 、 o3-mini 和 R1 拉了個(gè)橫評。
o3-mini 剛開(kāi)始看著(zhù)還不賴(lài),但估計物理沒(méi)學(xué)好,外面的六邊形都轉到垂直的位置了,球還不知道往下掉。
R1 的表現,也是有些讓人摸不著(zhù)頭腦。。
相對來(lái)說(shuō), V3-0324 生成的結果是表現最好的,這位老哥絲毫不吝嗇對它的夸獎,說(shuō)它 “ 表現得像唯一排名第一的非推理模型 ” 。
讓 V3-0324 生成一個(gè)網(wǎng)頁(yè),模型一口氣寫(xiě)了 800 多行代碼,運行的時(shí)候還沒(méi)有出錯,這什么實(shí)力不用多說(shuō)了吧。
在評論區底下,有人僅僅下達了編寫(xiě)登錄頁(yè)面的簡(jiǎn)單指令,并沒(méi)有任何其他的附加提示,同樣也生成了一個(gè)完整的登錄頁(yè)面。
還說(shuō) V3-0324 在編碼上,能跟 Claude 3.7 Sonnet 掰一掰手腕。
更別提其他的模型,性?xún)r(jià)比各方面相比下來(lái),現在 OpenAI 的 o1-pro 和 GPT-4.5 ,都已經(jīng)不香了。
反正看了幾個(gè)網(wǎng)友的測試案例之后,世超對 V3-0324 的前端代碼生成能力,已經(jīng)有了初步的判斷。
但不管咋說(shuō),沒(méi)親自上過(guò)手的東西,咱硬夸也有點(diǎn)心虛。所以這次世超也打算簡(jiǎn)單試一試,看看 V3-0324 到底有多能打。
一上來(lái),世超就讓模型做了一個(gè)畫(huà)板,提示詞是 “ 幫我用 HTML 代碼構建一個(gè)畫(huà)板,支持鼠標繪制、橡皮擦功能和顏色選擇 ” ,這次出戰的模型是 V3-0324 和普通版 Claude 3.7 Sonnet 。
只能說(shuō),這把 Claude 3.7 Sonnet 贏(yíng)得很徹底。光是有取色器這一點(diǎn),就甩了 V3-0324 不知道幾個(gè)車(chē)尾燈。
更別提 UI 設計了, V3-0324 做出來(lái)的畫(huà)板讓世超不是很有創(chuàng )作的欲望。。。
世超著(zhù)實(shí)是沒(méi)想到,這盆涼水來(lái)得這么快,都讓我有點(diǎn)懷疑到底是我的提示詞沒(méi)寫(xiě)好,還是模型有問(wèn)題了。。。
不過(guò),我后面又繼續把小球彈跳的提示詞,分別喂給了 DeepSeek-V3-0324 、普通版 Claude 3.7 Sonnet 還有 DeepSeek-V3 。
這下味兒終于對了。V3-0324 生成的結果確實(shí)牛叉,能很清楚地看到小球在下落觸底的時(shí)候,產(chǎn)生了小幅度的彈跳。
就是吧,老版本的 V3 壓根沒(méi)運行起來(lái)。。。只能說(shuō)兩個(gè)版本之間的差距高下立判了。
再來(lái)看普通版 Claude 3.7 Sonnet 的結果,優(yōu)點(diǎn)是底下的轉速、重力和摩擦力都是可調節的,彈跳看起來(lái)也沒(méi)什么大問(wèn)題,但小球有點(diǎn)出畫(huà)面了。。。
最后,世超又分別讓 V3 和 V3-0324 生成一個(gè) Saas 登錄頁(yè)面,提示詞就一句話(huà),沒(méi)有任何的附加信息。
可以看到, V3 的頁(yè)面倒是做出來(lái)了,但沒(méi)什么設計可言。
反觀(guān) V3-0324 ,果然就跟官方的版本更新說(shuō)明一樣,生成的網(wǎng)頁(yè)更美觀(guān)了。
綜合看下來(lái), V3-0324 的代碼能力相比 V3 確實(shí)有了比較大的提升,而且在一部分測試案例中,也能夠比肩普通版 Claude 3.7 Sonnet 。
但如果要說(shuō)完全超越 Claude 3.7 Sonnet ,那世超覺(jué)著(zhù)暫時(shí)還不太行。
不過(guò)大伙兒也別忘了, V3-0324 在開(kāi)源這個(gè)賽道里, V3-0324 已經(jīng)算得上能打的了。
而且 DeepSeek 的 API 價(jià)格業(yè)主打的一個(gè)便宜。世超對比了 Claude 3.7 Sonnet 和 V3-0324 的 API 價(jià)格, V3-0324 百萬(wàn) tokens 輸入的價(jià)格是 2 元,百萬(wàn) tokens 輸出的價(jià)格是 8 元,而同樣的 tokens 數, Claude 3.7 Sonnet 的輸入和輸出價(jià)格分別是 36.6 元和 108.9 元,價(jià)差最多有 18 倍。
所以在某種程度上, V3-0324 這個(gè)小更新,的確可以跟 Claude 3.7 Sonnet 媲美。
特別是今天晚上,DeepSeek官方還發(fā)文,正式介紹了這波小更新,在數學(xué)、代碼類(lèi)的相關(guān)評測上,V3-0324比OpenAI目前最厲害的非推理模型GPT-4.5都要更勝一籌。
去年 12 月底 V3 上線(xiàn),緊接著(zhù) R1 就在過(guò)年的時(shí)候上桌吃飯了。如果按照 DeepSeek 之前發(fā)布模型的節奏,盲猜一波 R2 也快了。
總之,小版本更新的 V3-0324 就已經(jīng)如此強悍了,就是不知道,在 DeepSeek 猛烈的開(kāi)源炮彈下, “OpenAI 們 ” 還遭不遭得住了。
評論