AI公司集體"抄作業(yè)":白菜價(jià)訓練"小模型"時(shí)代來(lái)了?
3月10日消息,如今開(kāi)發(fā)人工智能的成本正降至歷史新低。更低廉的人工智能開(kāi)發(fā)技術(shù)的確讓開(kāi)發(fā)者歡欣鼓舞,但這并非全然利好。隨著(zhù)成本降至谷底,大科技公司在基礎模型上的高昂投資必須得到合理解釋。
本文引用地址:http://dyxdggzs.com/article/202503/467857.htm以下為翻譯內容:
打造一家人工智能公司究竟要花多少錢(qián)?隨著(zhù)大語(yǔ)言模型的研發(fā)成本越來(lái)越低,這個(gè)數字每天都在下降。
人工智能算力成本持續下降,此外用極低成本訓練出優(yōu)質(zhì)大模型的“模型蒸餾技術(shù)”在不斷普及。新型廉價(jià)開(kāi)發(fā)技術(shù)令AI開(kāi)發(fā)者歡欣鼓舞,但這并非全然利好,也讓一些企業(yè)感到寒意。這項歷史悠久的技術(shù)正被賦予新價(jià)值:對多數人是福音,對特定群體意味著(zhù)復雜挑戰,而對AI未來(lái)則意義深遠。
蒸餾技術(shù)解構
人工智能開(kāi)發(fā)者和專(zhuān)家表示,蒸餾技術(shù)的本質(zhì)在于運用一個(gè)模型提升另一個(gè)模型。讓一個(gè)較大的“教師”模型生成應答與推理路徑,再讓一個(gè)較小的“學(xué)生”模型模仿其行為模式。
據傳中國公司DeepSeek(深度求索)以約500萬(wàn)美元成本訓練出與OpenAI抗衡的模型,在業(yè)界引起軒然大波。該消息引發(fā)股市恐慌,因擔憂(yōu)芯片需求下降,英偉達市值慘跌6000億美元(但此預測尚未成真)。
加州大學(xué)伯克利分校的研究團隊則在今年1月份發(fā)布研究,表明他們用不到1000美元的算力成本就訓練出兩個(gè)新模型。今年2月份,斯坦福大學(xué)、華盛頓大學(xué)以及艾倫人工智能研究所的研究人員更進(jìn)一步,只用更低成本就訓練出一個(gè)可用的推理模型。
這些突破都得益于蒸餾技術(shù)。
這項技術(shù)通常會(huì )搭配微調技術(shù)(fine-tuning),能以遠低于其他方法的成本在訓練階段提升模型性能。開(kāi)發(fā)者常用這兩種技術(shù)賦予模型特定的專(zhuān)業(yè)知識或技能。例如,可以將Meta開(kāi)發(fā)的通用基礎模型蒸餾成精通美國稅法的專(zhuān)家系統;或者利用DeepSeek的R1推理模型對Llama進(jìn)行蒸餾,從而增強后者的推理能力,讓Llama在生成答案需要更長(cháng)時(shí)間時(shí),能逐步展示推理過(guò)程。
美國知名半導體分析機構SemiAnalysis分析師在今年1月份發(fā)布的報告中寫(xiě)道:“R1模型中最有意思的部分,或許就在于用推理模型的輸出對一些非推理的小模型進(jìn)行微調,使它們轉變?yōu)榫邆渫评砟芰Φ哪P??!?/p>
除了價(jià)格低廉外,DeepSeek還把R1推理模型作為教師,發(fā)布其他開(kāi)源模型的蒸餾版本。DeepSeek的全尺寸模型以及Llama的最大版本規模太過(guò)龐大,僅有特定硬件能支持模型運行,而蒸餾技術(shù)也有助于解決這一問(wèn)題。圖靈資本(Touring Capital)合伙人薩米爾·庫馬爾(Samir Kumar)表示:“經(jīng)過(guò)蒸餾的模型體積更小、參數更少、內存占用更低,甚至可以在手機或邊緣設備上運行?!?/p>
DeepSeek的突破性在于,經(jīng)過(guò)蒸餾的模型性能并未因規??s減而下降,反而有所提升。
蒸餾技術(shù)雖非新生事物,卻已悄然蛻變
蒸餾技術(shù)最早出現在2015年,源于谷歌人工智能元老杰夫·迪恩(Jeff Dean)、杰弗里·辛頓(Geoffrey Hinton)以及谷歌DeepMind研究副總裁奧里奧爾·維尼亞爾斯(Oriol Vinyals)共同撰寫(xiě)的一篇論文中。維尼亞爾斯近期透露,該論文曾被NeurIPS頂會(huì )拒稿,理由是該技術(shù)“對領(lǐng)域影響有限”。十年后,蒸餾技術(shù)卻突然成為AI討論的核心議題。與過(guò)去相比,如今蒸餾技術(shù)的威力提升源于可用作教師模型的開(kāi)源模型在數量與質(zhì)量上的飛躍。今年1月份,IBM LLM Granite技術(shù)管理總監凱特·索爾(Kate Soule)在播客中表示:“DeepSeek通過(guò)MIT許可開(kāi)源迄今最強大的模型,實(shí)質(zhì)上正在侵蝕各大廠(chǎng)商守護核心模型的緊閉大門(mén)?!?/p>
蒸餾技術(shù)的應用邊界索爾提到,互聯(lián)網(wǎng)開(kāi)源模型庫Hugging Face平臺上充斥著(zhù)諸如Meta Llama和阿里巴巴Qwen等傳統模型的蒸餾版本。實(shí)際上,Hugging Face存儲的約150萬(wàn)個(gè)模型中,有3萬(wàn)個(gè)名稱(chēng)中帶有“distill”字樣,這通常表明它們經(jīng)過(guò)了蒸餾。但目前尚無(wú)蒸餾模型進(jìn)入Hugging Face的榜單前列。正如實(shí)體店里的一元店,蒸餾技術(shù)雖具頂尖性?xún)r(jià)比,但可選范圍有限且存在缺陷:專(zhuān)精某項任務(wù)的蒸餾模型在其他領(lǐng)域的表現可能會(huì )弱化。
蘋(píng)果公司研究人員曾嘗試構建“蒸餾擴展定律”,通過(guò)教師模型的規模、目標模型規模和算力投入等參數預測蒸餾效果。他們發(fā)現,在特定條件下,當使用高質(zhì)量的教師模型時(shí),蒸餾效果優(yōu)于傳統的監督學(xué)習,但當教師模型過(guò)大時(shí),性能提升將停滯。
盡管如此,這一技術(shù)仍有助于縮短從概念到原型的距離,普遍降低人工智能創(chuàng )業(yè)門(mén)檻。但多位人工智能專(zhuān)家強調,這種捷徑并不否定昂貴基礎模型的必要性,但卻是動(dòng)搖了大模型廠(chǎng)商的盈利前景。
基礎模型還有出路嗎?英偉達首席執行官黃仁勛在公司最新財報發(fā)布后接受采訪(fǎng)時(shí)表示:“如今全球幾乎所有AI開(kāi)發(fā)者都在使用DeepSeek的R1來(lái)蒸餾新模型?!闭麴s技術(shù)帶來(lái)了機遇,但對OpenAI和Anthropic等公司耗巨資開(kāi)發(fā)的專(zhuān)有大模型構成了威脅,有可能遭到對抗。云平臺Hyperbolic聯(lián)合創(chuàng )始人張杰表示:“我認為基礎模型將會(huì )越來(lái)越趨于同質(zhì)化。預訓練模型的能力存在天花板,我們正逼近這個(gè)極限?!睆埥苷J為,大語(yǔ)言模型巨頭的出路在于打造受歡迎的產(chǎn)品而非模型本身,這或許解釋了Meta選擇部分開(kāi)源Llama模型的戰略考量。
此外,基礎模型公司還可以采用更激進(jìn)的策略。匿名谷歌DeepMind研究員表示,具備推理能力的模型可以通過(guò)隱藏推理步驟或“痕跡”來(lái)防止被蒸餾。雖然OpenAI在大型o1推理模型中隱藏了完整的推理路徑,但新發(fā)布的o3-mini版本則展示了這些信息。特朗普政府人工智能政策顧問(wèn)戴維·薩克斯(David Sacks)在今年1月份接受采訪(fǎng)時(shí)說(shuō):“未來(lái)幾個(gè)月,頭部人工智能公司將圍剿蒸餾技術(shù)?!?/p>
不過(guò),在開(kāi)源人工智能的“狂野西部”,要通過(guò)限制蒸餾來(lái)遏制技術(shù)擴散談何容易。IBM LLM Granite的索爾直言:“Hugging Face充斥著(zhù)大量GPT模型生成的、未經(jīng)授權的格式化訓練數據集。這早已經(jīng)是公開(kāi)的秘密?!?/p>
Anthropic和OpenAI均未對此置評。
評論