OpenAI迎戰Deepseek
1月27日,DeepSeek應用登頂蘋(píng)果美國地區應用商店免費APP下載排行榜,在美區下載榜上超越了ChatGPT;同日,蘋(píng)果中國區應用商店免費榜顯示,DeepSeek成為中國區第一。而1月11日,DeepSeek的App才剛剛上線(xiàn)iOS和安卓的應用市場(chǎng)。
本文引用地址:http://dyxdggzs.com/article/202502/466922.htmDeepSeek橫空出世
DeepSeek,成立于2023年7月17日,全稱(chēng)杭州深度求索人工智能基礎技術(shù)研究有限公司,專(zhuān)注于開(kāi)發(fā)先進(jìn)的大語(yǔ)言模型(LLM)和相關(guān)技術(shù)。在團隊配置上,相比OpenAI擁有1200名研究人員,DeepSeek團隊只有139名研發(fā)人員,其中算子、推理框架、多模態(tài)等研發(fā)工程師以及深度學(xué)習方面的研究人員共有約70人。
2023年5月,DeepSeek創(chuàng )始人梁文鋒開(kāi)始進(jìn)入通用人工智能(AGI)領(lǐng)域,從公開(kāi)的工作經(jīng)歷和職業(yè)生涯來(lái)看,他的創(chuàng )業(yè)范疇橫跨金融和人工智能領(lǐng)域,在量化投資和高性能計算領(lǐng)域具有深厚的背景和豐富的經(jīng)驗。2015年,30歲的梁文鋒和朋友一起創(chuàng )辦了杭州幻方科技有限公司,立志成為世界頂級的量化對沖基金;2016年10月,幻方量化(High-Flyer)推出第一個(gè)AI模型,第一份由深度學(xué)習生成的交易倉位上線(xiàn)執行;到2017年底,幾乎所有的量化策略都采用AI模型計算;2019年,幻方量化成為國內首個(gè)募資超過(guò)1000億元的的量化對沖基金。
在A(yíng)I科技領(lǐng)域,美國長(cháng)期以來(lái)都是創(chuàng )新的引領(lǐng)者,一直以來(lái)都被認為是追趕者的中國公司,第一次在A(yíng)I行業(yè)中站上世界舞臺的中心。而且,DeepSeek的核心研究員都是中國本土培養的博士,沒(méi)有海外留學(xué)的背景,在一定程度上打破了技術(shù)創(chuàng )新只能在美國出現的刻板印象。
DeepSeek的全球熱議還帶來(lái)了美股的驚天震動(dòng),英偉達單日大跌近17%,市值蒸發(fā)近6000億美元(相當于人民幣4.3萬(wàn)億),創(chuàng )美股單日跌幅最高紀錄。原因不僅是因為DeepSeek訓練成本下降,帶來(lái)了芯片算力需求可能會(huì )下降的恐慌,也源自傳統的美國科技資本邏輯受到的沖擊。
出道即巔峰
DeepSeek可以說(shuō)是“出道即巔峰”,2024年12月26日宣布旗下全新系列模型DeepSeek-V3首個(gè)版本上線(xiàn)并同步開(kāi)源,總參數達6710億,采用創(chuàng )新的MoE架構和FP8混合精度訓練,并公布了長(cháng)達53頁(yè)的訓練和技術(shù)細節。真正讓DeepSeek火出圈的是 —— 其總訓練成本只有557.6萬(wàn)美元,而GPT-4o的約為1億美元,使用25000個(gè)GPU芯片。
在DeepSeek發(fā)表的原始報告中有詳細解釋這筆成本的計算:在預訓練階段,每兆個(gè)token上訓練DeepSeek-V3僅需要180K H800 GPU小時(shí),也就是說(shuō)在擁有2048個(gè)H800 GPU的叢集上需要3.7天。因此,預訓練階段在不到兩個(gè)月的時(shí)間內完成,耗費2664K GPU小時(shí)。加上上下文長(cháng)度擴充所需的119K GPU小時(shí)和后制訓練所需的5K GPU小時(shí),DeepSeek-V3的完整訓練僅需2.788M GPU小時(shí)。假設H800 GPU的租賃價(jià)格為每GPU小時(shí)2美元,總訓練成本僅為557.6萬(wàn)美元。
DeepSeek-V3通過(guò)數據與算法層面的優(yōu)化,大幅提升算力利用效率,實(shí)現了協(xié)同效應。這證明,模型效果不僅依賴(lài)于算力投入,即使在硬件資源有限的情況下,依托數據與算法層面的優(yōu)化創(chuàng )新,仍然可以高效利用算力,實(shí)現較好的模型效果。
· DeepSeekMoE(Mixture of Experts,混合專(zhuān)家)
傳統稠密模型,比如GPT-3.5,在訓練和推理過(guò)程中激活全部參數。然而事實(shí)上,并非模型的每個(gè)部分都是當前任務(wù)所必需的。因此,MoE的理念是將模型區分為多個(gè)「專(zhuān)家」,推理時(shí)只激活對任務(wù)必要的專(zhuān)家。MoE模型的效率優(yōu)勢正源于其選擇性激活機制,與傳統模型(如Llama)需要激活全部網(wǎng)絡(luò )權重不同,MoE通過(guò)對計算網(wǎng)絡(luò )進(jìn)行分類(lèi),顯著(zhù)降低計算成本。
MoE模型此前未被廣泛應用的主要障礙是訓練難度大,容易出現信息分類(lèi)不當,DeepSeek V3通過(guò)創(chuàng )新性的算法和工程優(yōu)化,成功突破這一限制。DeepSeek在V3模型論文中稱(chēng),相較于傳統MoE,DeepSeekMoE使用了“更細粒度”的專(zhuān)家,使專(zhuān)家更加專(zhuān)門(mén)化,單個(gè)專(zhuān)家僅數十億參數,提升了任務(wù)適配性;同時(shí),DeepSeekMoE將一些專(zhuān)家隔離為“共享專(zhuān)家”,用于減輕專(zhuān)家之間的知識冗余,從而使V3模型在激活相同數量專(zhuān)家和參數的情況下表現更好。
· MTP(Multi-Token Prediction,多tokens預測)
傳統大模型回答用戶(hù)需求時(shí)只預測下一個(gè)token,V3通過(guò)MTP技術(shù)同時(shí)預測下2個(gè)token。這里的關(guān)鍵是第二個(gè)預測token的準確性問(wèn)題(即「接受率」,預測的token能被最終采用的比例)。DeepSeek評估稱(chēng),在不同生成主題中,其模型所生成的第二個(gè)token的接受率達到了85%至90%。這種高接受率意味著(zhù)V3能夠以接近傳統單token預測模式兩倍的速度來(lái)生成文本。
· FP8:低精度訓練
FP8的意思是8位浮點(diǎn)(floating-point),數字越高,意味著(zhù)計算精度越高,但與此同時(shí)計算速度會(huì )降低。DeepSeek使用了FP8數據格式來(lái)訓練V3,并在模型計算的不同環(huán)節實(shí)現了數據在FP8、BF16、FP32等不同精度下的靈活和交替使用,即一種混合精度框架。在參數通信的部分過(guò)程,DeepSeek也做到了FP8精度的傳輸。通過(guò)這一過(guò)程,DeepSeek實(shí)現了加速訓練和減少GPU內存使用,并「首次在超大規模模型上驗證了FP8混合精度訓練框架的有效性」。
DeepSeek V3的大量創(chuàng )新都與為克服使用H800而不是H100所帶來(lái)的內存帶寬不足有關(guān)。為此,DeepSeek甚至繞過(guò)了英偉達的編程工具CUDA,對每塊H800芯片上132個(gè)處理單元中的20個(gè)進(jìn)行了重新編程,以專(zhuān)門(mén)用于管理跨芯片通信。DeepSeek以1/11的算力、僅2000個(gè)GPU芯片訓練出性能超越GPT-4o的大模型,雙方的成本至少是10倍的差距?!感?xún)r(jià)比」是商業(yè)社會(huì )中的制勝法寶之一,憑借其驚人的性能表現和低成本訓練模式,DeepSeek迅速吸引了全球關(guān)注,且熱度一直不減。
算力不再是“緊箍咒”?
DeepSeek的出現打破了英偉達等科技巨頭的算力路徑,走出了另一條路也就是說(shuō),提高AI模型能力不再需要那么高昂的門(mén)檻了,即不一定要提升很高的參數規模就能實(shí)現很高的性能,可能對算力需求至少降到10倍以上。在數據方面,與OpenAI“海量數據投喂”的方式不同,DeepSeek利用算法把數據進(jìn)行總結和分類(lèi),經(jīng)過(guò)選擇性處理之后,輸送給大模型,提高了訓練效率也降低了的成本。
DeepSeek-V3極低的訓練成本預示著(zhù)AI大模型對算力投入的需求將大幅下降,但由經(jīng)濟學(xué)家威廉·斯坦利·杰文斯提出的杰文斯悖論:當某種資源的使用效率提高、獲取變得更容易時(shí),其總體使用量往往不減反增。DeepSeek的發(fā)展也呈現出類(lèi)似的趨勢:算力效率的提升并未減少對算力的需求,反而推動(dòng)了更多高算力應用的落地,使得行業(yè)對算力的需求持續增長(cháng)。不過(guò)短期內,向英偉達大手筆下單的技術(shù)公司會(huì )變得更謹慎。
與ChatGPT等其他聊天機器人的不同之處在于,DeepSeek的同名聊天機器人在回應用戶(hù)提問(wèn)時(shí),會(huì )將思維鏈條(Chain of Thought,CoT)完全展示出來(lái),其作為機器人認真揣摩用戶(hù)需求、試圖將用戶(hù)所有說(shuō)出口或隱晦表達的情緒都安慰到位的“內心活動(dòng)”激發(fā)了大量用戶(hù)的熱情。商業(yè)的本質(zhì)在于創(chuàng )造稀缺,無(wú)論在人類(lèi)成員還是AI成員中,共情能力都是稀缺品。
?2025年1月20日?:發(fā)布新一代推理模型DeepSeek-R1,在各項性能與OpenAI的GPT-4o持平,并開(kāi)源?。V3模型和R1系列模型都是基于V3模型的更基礎版本V3-Base開(kāi)發(fā)的,相較于V3(類(lèi)4o)模型,R1(類(lèi)o1)系列模型進(jìn)行了更多自我評估、自我獎勵式的強化學(xué)習作為后訓練。在R1之前,業(yè)界大模型普遍依賴(lài)于RLHF(基于人類(lèi)反饋的強化學(xué)習),但R1系列模型放棄了RLHF中的HF(human feedback,人類(lèi)反饋)部分,只留下純粹的RL(強化學(xué)習)。
推理成本上,OpenAI o1每百萬(wàn)輸入和百萬(wàn)輸出token分別收取15美元和60美元,而DeepSeek R1同樣輸入與輸出的價(jià)格分別只要0.55美元和2.19美元,差不多只是前者的3%。
國外獨立評測機構Artificial Analysis測試了DeepSeek-V3后得出的結論:DeepSeek-V3超越了迄今為止所有開(kāi)源模型。需要注意的是,對比Android與iOS的生態(tài)隔離,開(kāi)源與閉源大模型均基于Transformer架構,差異是在數據、算法運用、工程等維度,并非是截然不同的技術(shù)路線(xiàn)。
由于DeepSeek這次的開(kāi)源,讓行業(yè)最領(lǐng)先的水平平權了,會(huì )加速推動(dòng)AI進(jìn)化的速度,進(jìn)而推動(dòng)必要條件的成熟,帶來(lái)新的應用機會(huì )。我們在討論DeepSeek開(kāi)源的時(shí)候,都指的是LLM大語(yǔ)言模型,但是除了語(yǔ)言模型,AI還有非常重要并行的領(lǐng)域是多模態(tài)模型。DeepSeek在近期也發(fā)布了圖像模型Janus pro,然而效果一般,在多模態(tài)的領(lǐng)域,開(kāi)源還有更長(cháng)的路要走。
DeepSeek的崛起標志著(zhù)全球人工智能競賽的“轉折點(diǎn)”,證明中國可以利用更少的資源與大科技公司競爭。DeepSeek發(fā)布的較低成本的開(kāi)源AI模型爆火,這也讓OpenAI重新思考,需要“弄清楚另一種開(kāi)源戰略”。外媒表示,盡管不太可能很快看到OpenAI開(kāi)源其任何模型,但DeepSeek的沖擊肯定會(huì )讓OpenAI有所改變。
OpenAI迎戰Deepseek
目前,OpenAI的ChatGPT已坐擁超3億月活躍用戶(hù)和超1100萬(wàn)付費用戶(hù),收入主要來(lái)自ChatGPT付費訂閱收入和API接口服務(wù)收入。其中,ChatGPT Plus每月收費20美元,ChatGPT Pro每月收費高達200美元,ChatGPT Plus和ChatGPT Pro主要面向個(gè)人用戶(hù),是OpenAI收入中最大的部分。2024年12月中,OpenAI首席財務(wù)官曾透露,OpenAI計劃推出一款月訂閱費高達2000美元的人工智能產(chǎn)品,稱(chēng)之為AI Agent(AI代理),并將2025年的營(yíng)收目標從80億美元上調到120億美元。
OpenAI在市場(chǎng)上占得了先機,有著(zhù)全球領(lǐng)先的AI大模型如GPT-4o、o1,可以借助自家閉源AI模型在技術(shù)上領(lǐng)先的優(yōu)勢繼續發(fā)展更多的付費用戶(hù)。而DeepSeek在A(yíng)I領(lǐng)域突然半路殺出,可能就會(huì )對ChatGPT的付費商業(yè)模式帶來(lái)強烈的沖擊。
面對DeepSeek的強勢挑戰,OpenAI帶來(lái)了全新產(chǎn)品 —— Deep Research,是一個(gè)使用推理來(lái)綜合大量在線(xiàn)信息并為用戶(hù)完成多步驟研究任務(wù)的智能體,旨在幫助用戶(hù)進(jìn)行深入、復雜的信息查詢(xún)與分析,最終形成一份專(zhuān)業(yè)水準的綜合報告。為實(shí)現這一點(diǎn),OpenAI針對需要使用瀏覽器和Python工具的現實(shí)任務(wù)進(jìn)行訓練,采用的強化學(xué)習方法與其首個(gè)推理模型o1相同。
這樣的能力使得原本需要人類(lèi)數小時(shí)才能完成的研究任務(wù),縮短至三十分鐘左右,目前Pro用戶(hù)現已可用。使用Deep Research非常簡(jiǎn)單,只需在ChatGPT界面選擇“Deep Research”模式,輸入研究需求,甚至可以上傳參考資料。整個(gè)研究過(guò)程會(huì )實(shí)時(shí)顯示在側邊欄,研究完成后用戶(hù)會(huì )收到通知。
盡管Deep Research展現出強大的功能,但OpenAI也承認其仍存在一些局限性,如信息準確性和報告格式的瑕疵。隨著(zhù)使用量的增加,OpenAI計劃不斷優(yōu)化模型,力求解決這些問(wèn)題。未來(lái)的更新中,Deep Research還將支持更多圖表和可視化內容的展示,以進(jìn)一步提升清晰度并提供更多背景信息。OpenAI首席執行官Sam Altman曾表示在人工智能領(lǐng)域,“最重要的進(jìn)步領(lǐng)域將圍繞推理能力展開(kāi)”,在OpenAI看來(lái),Deep Research功能朝著(zhù)其開(kāi)發(fā)AGI的宏大目標邁出了重要一步。
雖然英偉達的A100、H100等性能出色,但價(jià)格高昂,加之龐大的需求,芯片也就成為了一項巨大的支出,這也促使廠(chǎng)商自研芯片降低成本,減少對英偉達的依賴(lài)。最新消息顯示,OpenAI正積極推進(jìn)完成自家首款自研人工智能芯片,并將采用臺積電3nm制程工藝,計劃2026年實(shí)現大規模生產(chǎn)。
目前,OpenAI的內部設計芯片團隊有40人,由谷歌的前工程師Richard Ho帶領(lǐng)。此外,OpenAI在設計芯片上或將與博通合作。這不僅是對芯片設計的一次實(shí)戰檢驗,更是OpenAI向大規模自主芯片生產(chǎn)邁出的關(guān)鍵一步。OpenAI自研的芯片,初期在A(yíng)I模型的運行中將扮演有限的角色,但同樣也具備用于訓練AI模型的能力,未來(lái)可能用于大模型的訓練,如果進(jìn)展順利也計劃研發(fā)性能更強的芯片。
評論