<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 市場(chǎng)分析 > 大模型價(jià)格戰開(kāi)打,多芯混合能否成破局之策?

大模型價(jià)格戰開(kāi)打,多芯混合能否成破局之策?

作者: 時(shí)間:2024-06-25 來(lái)源:半導體產(chǎn)業(yè)縱橫 收藏

近期,國內多個(gè)企業(yè)陸續下調相關(guān)產(chǎn)品價(jià)格。

本文引用地址:http://dyxdggzs.com/article/202406/460282.htm

五月初開(kāi)始,9 家發(fā)布新內容的國內企業(yè)中,有 7 家宣布降價(jià)。其中包括:深度求索、智譜 AI、字節跳動(dòng)、阿里云、百度、科大訊飛、騰訊云這 7 家企業(yè),共涉及 21 款模型。甚至于有大廠(chǎng)打出「免費模式」的旗號。

價(jià)格戰愈演愈烈

5 月 6 日,知名私募巨頭幻方量化創(chuàng )立的深度求索對外發(fā)布第二代 MoE 模型 DeepSeek-V2。MoE 模型即混合專(zhuān)家模型,將復雜任務(wù)拆解為子任務(wù),分別交由合適的「專(zhuān)家」模型處理,提高準確性和推理效率。模型迭代的同時(shí),深度求索把 API 調用的定價(jià)降到每百萬(wàn) tokens 輸入 1 元、輸出 2 元,價(jià)格僅為 GPT-4-Turbo 的近百分之一。

5 月 11 日,智譜 AI 跟進(jìn),宣布將其 GLM-3 Turbo 模型的調用價(jià)格下調 80%。從 5 元/百萬(wàn) tokens 降至 1 元/百萬(wàn) tokens。1 元可以購買(mǎi) 100 萬(wàn) tokens。

5 月 15 日,字節的豆包大模型正式對外開(kāi)放,放出了較業(yè)內極低的價(jià)格,價(jià)格單位直接從「元」變?yōu)椤咐濉?。豆包大模型家族包含豆包通用模?PRO 版和 lite 版兩款通用模型,其中,豆包通用模型 pro-32k 版,推理輸入價(jià)格 0.0008 元/千 tokens,較行業(yè)價(jià)格低 99.3%。lite 版為 0.0003 元/千 tokens。

隨后在 5 月 21 日,阿里云也發(fā)布降價(jià)通知,通義 9 款主力大模型大幅降價(jià)。其中,通義千問(wèn) GPT-4 級主力模型 Qwen-Long 的 API 輸入價(jià)格直降 97% 至 0.0005 元/千 tokens,1 塊錢(qián)可以買(mǎi) 200 萬(wàn) tokens,相當于 5 本《新華字典》的文字量。

當日,百度甚至宣布文心大模型的兩款主力模型 ENIRE Speed、ENIRE Lite 全面免費??拼笥嶏w也在 22 日宣布訊飛星火 Lite 版 API 永久免費開(kāi)放,訊飛星火 Pro/Max API 價(jià)格降至 0.21 元/萬(wàn) tokens。此外,22 日騰訊也公布了全新的大模型升級方案。騰訊的主力模型之一混元-lite 模型,API 輸入輸出總長(cháng)度計劃從目前的 4k 升級到 256k,價(jià)格從 0.008 元/千 tokens 調整為全面免費。

在 AI 領(lǐng)域的激烈角逐中,大模型正逐步走向價(jià)格戰的漩渦。那么,推動(dòng)這一變革的深層原因是什么?而它又將如何深遠地影響整個(gè)行業(yè)生態(tài)?

降價(jià)的本質(zhì)為何?

價(jià)格戰有利于巨頭搶占市場(chǎng)

當前的行業(yè)價(jià)格戰,可以看做是「百模大戰」帶來(lái)的一個(gè)衍生結果。大模型狂熱之時(shí),幾乎每隔一天就有一個(gè)大模型「蹦出來(lái)」。截至 2023 年 11 月 30 日,國內已經(jīng)有至少 200 家大模型廠(chǎng)商推出了各自的大模型。

當下的大模型競爭早已超過(guò)了技術(shù)的范疇,更多是一種生態(tài)層面的比拼,具體表現在有多少應用、有多少插件、有多少開(kāi)發(fā)者以及用戶(hù)等。

要知道,當前的大模型市場(chǎng),空間相當有限,大部分的大模型 APP 都已經(jīng)開(kāi)始面臨用戶(hù)增長(cháng)乏力的困境,包括備受矚目的 OpenAI。因此降價(jià)便是這些大廠(chǎng)獲得更多市場(chǎng)的方式之一。

此外,從價(jià)格角度來(lái)看,一些初創(chuàng )公司的價(jià)格本身就較低。因此,針對當下的科技巨頭紛紛降價(jià),那些 AI 創(chuàng )業(yè)公司大都沒(méi)有選擇跟進(jìn)。一些參與 AI 大模型投資的投資人表示,「這波降價(jià)對一些創(chuàng )業(yè)公司 TO B 模式影響較大?!挂驗檫^(guò)去很多公司,之所以選擇跟初創(chuàng )公司合作,主要就是看重初創(chuàng )公司的 API 比大廠(chǎng)要便宜,但現在基本上沒(méi)有任何比大廠(chǎng)便宜的可能性了,這意味著(zhù)創(chuàng )業(yè)公司的 B 端商業(yè)化模式不復存在了。

對于這些初創(chuàng )公司來(lái)說(shuō),倘若找不到新的出路,或許就會(huì )面臨生死考驗。

入門(mén)級、輕量級的文本大模型的能力差距不顯著(zhù)

半導體產(chǎn)業(yè)縱橫觀(guān)察發(fā)現,在這波降價(jià)潮中降價(jià)的模型主要為入門(mén)級、輕量級的文本大模型,而高性能及圖像識別、語(yǔ)音識別等垂類(lèi)的多模態(tài)模型并沒(méi)有調整價(jià)格。

而這些入門(mén)級、輕量級的文本大模型技術(shù)和能力等各方面已經(jīng)趨同,各廠(chǎng)商之間的技術(shù)壁壘并不顯著(zhù),因此價(jià)格競爭成為了它們之間主要的競爭手段。

根據上海人工智能實(shí)驗室發(fā)布的大模型開(kāi)源開(kāi)放評測體系司南(OpenCompass2.0)顯示,復雜推理相關(guān)能力是大模型普遍面臨的難題,國內大模型相比于 GPT-4 還存在差距,這是大模型在金融、工業(yè)等要求可靠的場(chǎng)景落地需要的關(guān)鍵能力。不過(guò),在中文場(chǎng)景下國內最新的大模型已展現出獨特優(yōu)勢,尤其在語(yǔ)言、知識維度上接近 GPT-4 Turbo 的水平。

大模型的邊際收益正在持續走低

Gary Marcus 博士在「Evidence that LLMs are reaching a point of diminishing returns—and what that might mean」《LLMs 正達到收益遞減的證據——及其可能意味著(zhù)什么》一文中提到,從 GPT-2 到 GPT-4 甚至 GPT-4 Turbo 的性能變化,已經(jīng)出現了性能遞減的跡象。

Gary Marcus 博士表示:「自 GPT-4 發(fā)布以來(lái),多個(gè)模型在 GPT-4 水平性能上都有著(zhù)巨大的收斂,然而并沒(méi)有明顯領(lǐng)先的模型?!?/span>

在收益遞減的背景下,意味著(zhù)處理相同的任務(wù),開(kāi)發(fā)者的實(shí)際成本是在上升的。在 AI 創(chuàng )新商業(yè)化前景還不明朗的市場(chǎng)環(huán)境下,為了保住現有用戶(hù),大模型廠(chǎng)商必須給出有吸引力的對策。包括提供更小的模型,比如谷歌推出的 Gemini 1.5 Flash。另一個(gè)手段就是直接降價(jià)。

投入高昂,多芯混合或有助力

人工智能的核心是算力,算力需求主要分為兩部分,包括訓練算力和推理算力。

目前來(lái)說(shuō)對訓練算力需求非常高,根據去年的一則數據顯示,ChatGPT 的公開(kāi)數據顯示它的整個(gè)訓練算力消耗非常大,達到了 3640PF-days。換算成英偉達 A100 芯片,它單卡算力相當于 0.6P 的算力,理想情況下總共需要大概 6000 張,在考慮互聯(lián)損失的情況下,需要一萬(wàn)張 A100 作為算力基礎。在 A100 芯片 10 萬(wàn)人民幣/張的情況下,算力的硬件投資規模達到 10 億人民幣。推理算力主要是英偉達 T4 卡,推理成本大約相當于訓練成本的三分之一。

除了算力的成本,還有隨之而來(lái)的存儲、推理、運維、應用等一系列成本。??

那么如何解決絕大多數企業(yè)當下最關(guān)心的「降本增效」問(wèn)題?除了對模型的優(yōu)化,硬件層面的創(chuàng )新思路亦不容忽視。近期,業(yè)界不少專(zhuān)家和技術(shù)人員開(kāi)始聚焦于多芯混合的概念,嘗試通過(guò)這一策略來(lái)為企業(yè)帶來(lái)更高的性能和更低的成本。

那么到底什么是多芯混合?它又如何在 AI 大模型算力緊缺的當下提供更優(yōu)的解決方案。

多芯混合主要涉及在硬件設計或應用中,結合使用不同類(lèi)型、不同功能或不同制程架構的芯片,以形成一個(gè)混合的計算系統或解決方案。上文提到當前基礎大模型訓練所需要的最大 AI 算力集群規模,已經(jīng)從單一集群千卡逐步提升至萬(wàn)卡量級。同時(shí),很多智算中心已經(jīng)部署的 GPU 集群,通常是十幾臺至數百臺服務(wù)器不等,難以滿(mǎn)足未來(lái)行業(yè)大模型訓練的需求。

所以,在已有 AI 算力集群的基礎上,構建由昆侖芯、昇騰等不同芯片混合組成的單一集群,為大模型訓練提供更大 AI 算力,成為了一個(gè)自然的選擇。

多芯混合有哪些優(yōu)勢?

第一,通過(guò)將計算任務(wù)分配到多個(gè) GPU 上,可以顯著(zhù)加速模型的訓練速度。多 GPU 并行訓練還可以減少單 GPU 訓練中由于計算瓶頸導致的時(shí)間浪費,從而提高了訓練效率。

第二,多 GPU 訓練可以同時(shí)處理更多的數據,從而提高了內存利用率。

第三,這種混合集群的構建能夠有效降低成本。畢竟,與英偉達的 A100/H100 系列 GPU 相比,其他品牌的 GPU 價(jià)格更為親民。

然而,若此方案真如我們想象中那般易于實(shí)施,那么它早已被業(yè)界的諸多巨頭所采納。具體看看,這一方案的實(shí)施都存在哪些難點(diǎn)?

多芯混合要解決哪些問(wèn)題?

為了建設一個(gè)能夠高效訓練大模型的集群,需要在卡間和機間建立高效的互聯(lián)互通,將大模型訓練任務(wù)按照合適的并行策略拆分到 GPU 卡中,最后通過(guò)各種優(yōu)化方法,加速 GPU 對算子的計算效率,完成大模型訓練。

然而,不同芯片之間很難互聯(lián)互通,因為英偉達 GPU、昆侖芯、昇騰 910B 的物理連接方式,并行策略以及 AI 加速套件上都不一樣。

首先,在互聯(lián)互通上,單臺服務(wù)器內的 8 塊 GPU 卡通過(guò) NVLink 連接。不同服務(wù)器之間的 GPU 卡通過(guò) RDMA 網(wǎng)絡(luò )連接。

過(guò)去,我們看到了很多有關(guān)英偉達 GPU 和 CUDA 護城河的介紹。誠然,經(jīng)過(guò)多年的投入,他們已經(jīng)建立起了難以逾越的優(yōu)勢。但除此以外,如上所述,英偉達還有很多隱形護城河,NVLink 就是其中的一個(gè),一個(gè)為 GPU 到 GPU 互聯(lián)提供高速連接的技術(shù)。

在摩爾定律逐漸失效,但對算力要求越來(lái)越高的當下,這種互聯(lián)顯得尤為必要。

英偉達官網(wǎng)表示,NVLink 是全球首創(chuàng )的高速 GPU 互連技術(shù),為多 GPU 系統提供另一種選擇,與傳統的 PCI-E 解決方案相比,速度方面擁有顯著(zhù)提升。使用 NVLink 連接兩張英偉達 GPU,即可彈性調整存儲器與效能,滿(mǎn)足專(zhuān)業(yè)視覺(jué)運算最高工作負載的需求。

而昆侖芯服務(wù)器內部通過(guò) XPU Link 進(jìn)行連接,服務(wù)器之間通過(guò)標準的 RDMA 網(wǎng)卡進(jìn)行連接,卡和卡之間使用 XCCL 通信庫進(jìn)行相互通信。昇騰 910B 服務(wù)器內部通過(guò) HCCS 進(jìn)行連接,服務(wù)器之間通過(guò)華為自研的內置 RDMA 進(jìn)行連接,卡和卡之間使用 HCCL 通信庫進(jìn)行相互通信。

其次,在并行策略上,英偉達 GPU 和昆侖芯采用單機 8 卡的部署方式,昇騰 910B 則是機內 16 卡分為 2 個(gè) 8 卡通信組。這意味著(zhù)在 AI 框架下形成不同的集群拓撲,需要有針對性地制定分布式并行策略。

最后,在 AI 加速套件上,由于昆侖芯、昇騰等芯片在計算能力,顯存大小,I/O 吞吐,通信庫等均存在差異,故需要面向具體芯片進(jìn)行特定優(yōu)化。最后的結果,就是每一種芯片,有一個(gè)各自對應的算子庫,以及相應的加速策略。

哪些廠(chǎng)商開(kāi)始試水?

值得注意的是,近日,AMD、博通、思科、谷歌、惠普企業(yè) (HPE)、英特爾、Meta 和微軟等領(lǐng)先科技公司組成的聯(lián)盟宣布成立超級加速器鏈路 (UALink) 促進(jìn)會(huì )。該計劃旨在制定一項開(kāi)放的行業(yè)標準,以促進(jìn)數據中心 AI 系統的高速、低延遲通信。

面對日益增長(cháng)的 AI 工作負載,這些科技巨頭均迫切需要超高性能互連。

百度也在打造多芯混合訓練 AI 集群。百度百舸的多芯混合訓練方案,屏蔽了底層復雜的異構環(huán)境,將各類(lèi)芯片融合成為了一個(gè)大集群,可以實(shí)現存量不同算力的統一,整合發(fā)揮這些算力的最大效能,支持更大模型訓練任務(wù)。同時(shí),支持新增資源的快速融入,滿(mǎn)足未來(lái)業(yè)務(wù)增長(cháng)的需要。該方案不僅通過(guò)百度智能云的公有云提供服務(wù),同時(shí)還可以通過(guò) ABC Stack 專(zhuān)有云進(jìn)行交付。

此前,百度集團執行副總裁、百度智能云事業(yè)群總裁沈抖表示,在「一云多芯」方面,百度百舸兼容昆侖芯、昇騰、海光 DCU、英偉達、英特爾等國內外主流 AI 芯片,支持同一智算集群中混合使用不同廠(chǎng)商芯片,最大程度上屏蔽硬件之間差異,幫助企業(yè)擺脫單一芯片依賴(lài),打造更有性?xún)r(jià)比、更安全、更具彈性的供應鏈體系。在多芯混合訓練任務(wù)中,百舸能夠將單芯片利用率、芯片間通信效率、集群整體效能發(fā)揮到極致,百卡規模性能損失不超過(guò) 3%,千卡規模性能損失不超過(guò) 5%,均為國內最高水平。

近日,FlagScale 開(kāi)源大模型并行訓練框架全面升級。智源團隊與天數智芯團隊合作,實(shí)現了「英偉達芯片+其它 AI 芯片」集群上單一大模型任務(wù)的異構混合訓練,并在 70B 大模型上驗證了不同架構芯片上進(jìn)行異構混合訓練的有效性。同時(shí),為了加速多種 AI 芯片在大模型訓練場(chǎng)景的使用,智源積極探索高效靈活的芯片適配方案,通過(guò)與硬件廠(chǎng)商的深入合作,FlagScale 已在 6 家不同廠(chǎng)商的多款 AI 芯片上適配 Aquila2 系列大模型的大規模訓練。

由于不同廠(chǎng)商的卡間互聯(lián)協(xié)議不同,為了實(shí)現「英偉達芯片+其它 AI 芯片」高速互聯(lián),智源團隊與天數智芯協(xié)作,優(yōu)化天數智芯的 iXCCL 通信庫,使其在通信原語(yǔ)操作上以及 API 接口上兼容英偉達 NCCL,然后將框架編譯鏈接到同一 iXCCL 通信庫上,從而在用戶(hù)和 AI 框架無(wú)感知的情況下實(shí)現異構算力芯片間高效通信,進(jìn)而實(shí)現不同架構芯片混合訓練。同時(shí),雙方還協(xié)作優(yōu)化了流水線(xiàn)并行的分配方式,并針對不同芯片算力、內存帶寬、內存容量的差異來(lái)為不同芯片配置不同的流水線(xiàn)并行策略,以使得訓練過(guò)程中能充分發(fā)揮不同芯片的性能,最終率先實(shí)現了通用 GPU 異構大模型高效訓練方案。

國產(chǎn) GPU 廠(chǎng)商的機遇

多芯混合技術(shù)允許將不同架構、不同功能的芯片集成在一個(gè)系統中,這為國產(chǎn)廠(chǎng)商提供了技術(shù)創(chuàng )新的機會(huì )。通過(guò)整合和優(yōu)化不同芯片的性能,可以開(kāi)發(fā)出更高效、更靈活的解決方案。

多芯混合技術(shù)為國產(chǎn)廠(chǎng)商帶來(lái)了綜合性的發(fā)展機遇。這一技術(shù)不僅推動(dòng)了技術(shù)創(chuàng )新,滿(mǎn)足了市場(chǎng)對高性能、低功耗芯片的日益增長(cháng)需求,還促進(jìn)了產(chǎn)業(yè)鏈上下游的協(xié)同合作,加強了產(chǎn)業(yè)整體競爭力。同時(shí),國家政策的支持也為國產(chǎn)廠(chǎng)商在多芯混合技術(shù)領(lǐng)域的發(fā)展提供了有力保障。國產(chǎn)廠(chǎng)商應抓住這一機遇,加大研發(fā)力度,推動(dòng)多芯混合技術(shù)的突破與應用,以提升國產(chǎn)芯片的技術(shù)水平和市場(chǎng)競爭力。



關(guān)鍵詞: 大模型

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>