DeepSeek適配國產(chǎn)芯片:差異化表現,商用前景各異
在 DeepSeek 熱浪的席卷之下,各大國產(chǎn) GPU 公司紛紛投身適配浪潮。
本文引用地址:http://dyxdggzs.com/article/202502/467279.htm看似相同的動(dòng)作,背后卻各有千秋。
如今,業(yè)內報道多聚焦于適配 DeepSeek 的公司數量,卻很少有人去深究這些公司間的差異。究竟是技術(shù)路線(xiàn)存在分歧,還是性能表現高低有別?是生態(tài)建設各具特色,亦或是應用場(chǎng)景有所不同?
適配模型,選原版還是蒸餾版?
從適配 Deepseek 模型的角度來(lái)看,芯片廠(chǎng)商的動(dòng)作可大致歸為兩類(lèi)。一類(lèi)是對原生 R1 和 V3 模型進(jìn)行適配,另一類(lèi)則是適配由 R1 蒸餾而來(lái)的小模型。
至于這三者的區別:
Deepseek R1 定位為推理優(yōu)先的模型,專(zhuān)為需要深度邏輯分析和問(wèn)題解決的場(chǎng)景而設計。其在數學(xué)、編程和推理等多個(gè)任務(wù)上可達到高性能。
Deepseek V3 定位為通用型的大語(yǔ)言模型,其在多種自然語(yǔ)言處理任務(wù)中實(shí)現高效、靈活的應用,滿(mǎn)足多領(lǐng)域的需求。Deepseek R1/V3 原版模型通常具有較大的參數量,結構相對復雜。
DeepSeek-R1 系列蒸餾模型是基于 DeepSeek R1 進(jìn)行蒸餾得到的輕量級版本,參數量較少,結構更精簡(jiǎn)旨在保持一定性能的同時(shí)降低資源消耗。適合輕量級部署和資源受限場(chǎng)景,如邊緣設備推理、中小企業(yè)快速驗證 AI 應用。
雖說(shuō)各家均在搶占適配 Deepseek 的高地,但實(shí)際上各家所適配的模型類(lèi)型也并不相同。
上圖可見(jiàn),雖主流 GPU 廠(chǎng)商均在加速適配 DeepSeek 模型的節奏,但明確宣布適配 DeepSeek R1 及 V3 原版模型的只有一半左右。這類(lèi)模型對芯片的計算能力、內存帶寬以及多卡互聯(lián)等技術(shù)要求極高。其中包括華為昇騰、海光信息。
另一部分廠(chǎng)商則主要支持 DeepSeek-R1 系列蒸餾模型(參數規格在 1.5B - 8B 之間)。這些蒸餾模型的原始模型是通義千問(wèn)和 LLAMA,因此原本能夠支持通義千問(wèn)和 LLAMA 模型的平臺,基本上就能適配這些 DeepSeek 的蒸餾模型,工作量也相對較小。包括摩爾線(xiàn)程、壁仞科技等。
不同大小的模型所適應的場(chǎng)景不一樣,云端推理需要模型參數比較大,模型性能最好,主要適配原生 R1 或者 V3 模型;端側芯片主要適配 1.5B~8B 間的模型,這類(lèi)模型推理結構非常成熟,無(wú)需花費額外的工作。
不同公司,優(yōu)勢何在?
除了所適配的模型種類(lèi)有別外,各家所選取的技術(shù)路線(xiàn)也有所不同,適配時(shí)遇到的難度也各不相同。
首先,從當前的技術(shù)生態(tài)和實(shí)際應用場(chǎng)景來(lái)看,DeepSeek 模型的運行和適配主要依賴(lài)于英偉達的硬件和編程語(yǔ)言,而各家廠(chǎng)商的適配能力則取決于其對原始開(kāi)發(fā)生態(tài)的兼容性。
這也意味著(zhù),DeepSeek 目前主要適配英偉達芯片,這對其他硬件平臺的應用和性能有一定影響。因此是否容易適配基于英偉達 GPU 開(kāi)發(fā)的 DeepSeek 等大模型,與芯片是否兼容 CUDA 有關(guān)。能兼容 CUDA 的廠(chǎng)商,彼此間兼容程度也有不同。
其次,從性能表現來(lái)看,不同 GPU 的計算能力(如 FLOPS、內存帶寬)不同,也直接影響 DeepSeek 在處理大規模深度學(xué)習任務(wù)時(shí)的速度。某些 GPU 可能在能效比上表現更優(yōu),適合在低功耗環(huán)境下運行 DeepSeek。
接下來(lái),讀者不妨看看主流芯片公司在適配 DeepSeek 時(shí),各自具備的優(yōu)勢與面臨的挑戰。
華為昇騰(Ascend)
昇騰擁有芯片+框架+工具鏈等全棧 AI 能力,與 DeepSeek 的技術(shù)棧適配潛力大。
從硬件方面來(lái)看,昇騰 910 芯片針對 AI 訓練和推理優(yōu)化,算力密度高,尤其適合大規模模型訓練。
從軟件生態(tài)方面來(lái)看,CANN 異構計算架構和 MindSpore 框架深度綁定,若 DeepSeek 基于 MindSpore 優(yōu)化,昇騰適配性極強;同時(shí)支持 PyTorch/TensorFlow 的遷移工具。
關(guān)于昇騰適配 DeepSeek 面臨的挑戰,若 DeepSeek 依賴(lài) CUDA 生態(tài),需通過(guò)華為的兼容層(如昇騰異構計算加速庫)轉換,可能損失部分性能。
海光信息(DCU)
海光的優(yōu)勢是海光 DCU 兼容通用的「類(lèi) CUDA」環(huán)境,以及擅長(cháng)高性能計算。
從硬件方面來(lái)看,基于 AMD CDNA 架構的 DCU 系列,兼容 ROCm 生態(tài),對 CUDA 代碼遷移友好,適合需兼容現有生態(tài)的 DeepSeek 場(chǎng)景。
從場(chǎng)景適配方面來(lái)看,在智算中心應用成熟,若 DeepSeek 側重 HPC+AI 融合場(chǎng)景(如科學(xué)計算),海光更具優(yōu)勢。
關(guān)于海光適配 DeepSeek 面臨的挑戰,或許在軟件工具鏈成熟度上。
燧原科技(邃思)
燧原的優(yōu)勢在于云端 AI 訓練與推理。
在架構設計方面,邃思芯片針對 Transformer 等大模型優(yōu)化,計算密度高,適合 DeepSeek 的大規模參數場(chǎng)景。
在軟件適配方面,燧原支持 TF/PyTorch 主流框架,提供自動(dòng)化編譯工具,降低 DeepSeek 遷移成本。
關(guān)于燧原適配 DeepSeek 面臨的挑戰,其生態(tài)影響力較弱,需依賴(lài)客戶(hù)定制化合作。
沐曦(MXN)
沐曦的優(yōu)勢在于 GPU 通用性與 CUDA 兼容性。
在兼容性方面,MXN 系列兼容 CUDA,若 DeepSeek 重度依賴(lài) CUDA 生態(tài),沐曦的遷移成本相對較低。
在產(chǎn)品性能方面,沐曦 GPU 理論算力對標國際旗艦產(chǎn)品,適合高算力需求場(chǎng)景。
關(guān)于沐曦適配 DeepSeek 面臨的挑戰,產(chǎn)品量產(chǎn)進(jìn)度和實(shí)際落地案例較少,需驗證穩定性。
天數智芯(天垓)
天數智芯的優(yōu)勢在于兼容 CUDA 生態(tài)。
從生態(tài)適配方面,天垓 BI 芯片兼容 CUDA,對已有代碼庫的 DeepSeek 項目友好。
關(guān)于天數智芯適配 DeepSeek 面臨的挑戰,高端算力不足,支撐千億級大模型訓練存在壓力。
壁仞科技(BR 系列)
壁仞科技的單芯片算力峰值高。
從硬件指標來(lái)看,高算力峰值使其適合需要極致算力的 DeepSeek 任務(wù)。
關(guān)于壁仞適配 DeepSeek 面臨的挑戰,軟件棧成熟度待提升。
昆侖芯
與百度 PaddlePaddle 深度綁定,若 DeepSeek 與百度生態(tài)協(xié)同,適配性較強。
摩爾線(xiàn)程(MTT S 系列)
聚焦圖形渲染與 AI 融合場(chǎng)景,適合 DeepSeek 的多模態(tài)應用(如 3D 視覺(jué)),但通用計算能力有限。
云天勵飛/太初元碁
側重邊緣端推理,若 DeepSeek 部署在終端設備,這兩家更具優(yōu)勢。
龍芯
龍芯目前以 CPU 為主,GPU 產(chǎn)品處于早期階段,適配 DeepSeek 暫不成熟。
在近期行業(yè)緊鑼密鼓地適配 DeepSeek 系列模型后,如何商用成為這一問(wèn)題的焦點(diǎn)。
DeepSeek 商用,有哪些形式?
云上部署
比如:DeepSeek 模型通過(guò)華為云平臺提供服務(wù),企業(yè)客戶(hù)可以通過(guò) API 調用或云服務(wù)直接使用 DeepSeek 的功能,如圖像識別、自然語(yǔ)言處理、語(yǔ)音識別等。企業(yè)根據實(shí)際使用量(如計算資源、API 調用次數)付費,降低前期投入成本。云服務(wù)模式無(wú)需企業(yè)本地部署硬件,能夠快速上線(xiàn)和應用。
本地化部署
一體機形式:目前 DeepSeek 大模型一體機分為推理一體機和訓推一體機。DeepSeek 推理一體機內置 DeepSeek-R1 32B、70B、滿(mǎn)血版 671B 等不同尺寸模型,價(jià)格在幾十萬(wàn)到數百萬(wàn)不等,主要面向對數據安全、數據隱私較為敏感的企業(yè)用戶(hù)。而訓推一體機的售價(jià)更高,用于 DeepSeek-R1 32B 模型的預訓練和微調的一體機價(jià)格就達到數百萬(wàn)。
企業(yè)自行部署:對于對性能要求極高的企業(yè)(如自動(dòng)駕駛、金融風(fēng)控)或者對安全性需求極高的企業(yè)(如政府和金融機構),DeepSeek 模型可以本地部署在 GPU 芯片等硬件上,實(shí)現「滿(mǎn)血」性能。
從當前的商用模式來(lái)看,由于本地部署 GPU 芯片和 DeepSeek 模型的成本較高,企業(yè)用戶(hù)會(huì )先在公有云上進(jìn)行測試,與需求是否適配,再考慮私有云部署、一體機等形式。因此,中小企業(yè)可能更傾向于通過(guò)云服務(wù)使用相關(guān)技術(shù)。
自然,部分對數據安全高度重視或急需高性能算力的企業(yè),不惜投入十萬(wàn)乃至百萬(wàn)資金,部署一體機以滿(mǎn)足自身需求。隨著(zhù) DeepSeek 開(kāi)源模型的發(fā)展,其私有化部署需求日益凸顯,一體機化等相關(guān)市場(chǎng)正蓬勃發(fā)展,吸引眾多企業(yè)投身其中。
DeepSeek 商業(yè)化,芯片公司誰(shuí)做的更好?
在 DeepSeek 概念里,昇騰和海光的商業(yè)化都取得了不錯的進(jìn)展。
一體機熱銷(xiāo),昇騰得到利好
昇騰:70% 的企業(yè)將基于昇騰向 DeepSeek 靠攏。
近日,DeepSeek 一體機的發(fā)布廠(chǎng)商包括華鯤振宇、寶德、神州鯤泰、長(cháng)江計算等,均基于昇騰產(chǎn)品構建。
可以看到,隨著(zhù) DeepSeek 一體機的密集發(fā)布,昇騰的產(chǎn)業(yè)聯(lián)盟正在不斷擴大。
據悉,目前已有超過(guò) 80 家企業(yè)基于昇騰快速適配或上線(xiàn)了 DeepSeek 系列模型,并對外提供服務(wù)。預計未來(lái)兩周內,還將有 20 多家企業(yè)完成上線(xiàn)。這意味著(zhù),國內 70% 的企業(yè)將基于昇騰向 DeepSeek 靠攏。
相較于進(jìn)口 GPU 方案,昇騰芯片的本地化服務(wù)和團隊對部署 DeepSeek 的效果影響顯著(zhù)。以萬(wàn)卡規模的數據中心為例,MindSpore 工具鏈的自動(dòng)并行功能使得分布式訓練代碼量減少了 70%。
海光:智算中心、金融等多場(chǎng)景滲透
海光與 DeepSeek 的合作覆蓋智算中心、金融、智能制造等核心場(chǎng)景。
在智算中心方面,海光信息聯(lián)合青云科技推出「海光 DCU + 基石智算 + DeepSeek 模型」方案,支持按 Token 計費的靈活調用模式,降低企業(yè) AI 應用門(mén)檻。
在金融科技方面,中科金財與海光信息技術(shù)股份有限公司聯(lián)合推出了軟硬一體解決方案。該方案融合了自研的多場(chǎng)景多基座大模型引擎與海光 DCU 系列加速卡,并完成了與 DeepSeek 模型的深度適配。
在智能制造方面,海光 DCU 通過(guò)適配 DeepSeek-Janus-Pro 多模態(tài)模型,賦能工業(yè)視覺(jué)檢測與自動(dòng)化決策,助力三一重工等企業(yè)實(shí)現產(chǎn)線(xiàn)智能化升級。
在數據管理方面,空天數智打造的「睿思矩陣數據存管用平臺」全面適配海光 DCU,將 DeepSeek 嵌入平臺,作為「超級引擎」深入海量數據,為自然資源、能源電力、航空航天等領(lǐng)域提供數據處理支持。
此外,新致軟件聯(lián)合中科海光,正式發(fā)布新致信創(chuàng )一體機——以海光 K100 GPU 服務(wù)器為算力基石,深度融合新致新知人工智能平臺與 DeepSeek 系列大模型,為企業(yè)提供從芯片到模型的全棧國產(chǎn)化 AI 解決方案,開(kāi)啟安全、高效、敏捷的智能化轉型新時(shí)代。
京東云也發(fā)布 DeepSeek 大模型一體機,支持華為昇騰、海光等國產(chǎn) AI 加速芯片。
國產(chǎn) GPU,機會(huì )來(lái)了
隨著(zhù) DeepSeek 一體機等應用的推出和廣泛應用,市場(chǎng)對國產(chǎn)芯片的需求正在顯著(zhù)增加。
沐曦科技 CTO 楊建表示,大模型后訓練部分預計今年會(huì )有更多非英偉達卡加入,DeepSeek 推動(dòng)的大模型私有化部署,對國產(chǎn)芯片而言也是機會(huì )。
「2025 年國產(chǎn) GPU 的一個(gè)機會(huì )在于私有化部署,基本上這個(gè)市場(chǎng)會(huì )以大模型后訓練和推理為主?!箺罱ū硎?,基于英偉達應用于 AI 領(lǐng)域的 GPU 進(jìn)入國內市場(chǎng)的方式,英偉達卡在零售市場(chǎng)上基本消失了,而私有化部署較依賴(lài)零售市場(chǎng)。若私有化部署市場(chǎng)爆發(fā),國產(chǎn)卡將會(huì )有很大機會(huì )。
隨著(zhù)海外芯片算力限制帶來(lái)的難題逼近,全球算力可能會(huì )形成兩條并行路線(xiàn),逐漸脫鉤。到 2026 年、2027 年,美國預訓練和后訓練的算力基座預計仍是英偉達,在國內則是有一部分由英偉達承擔、一部分由國產(chǎn)芯片承擔。其中,后訓練部分今年逐漸會(huì )有更多非英偉達卡加入,這是因為后訓練對集群要求相對較低,不太需要千卡以上集群。
天數智芯相關(guān)人士也表示,隨著(zhù)國產(chǎn)模型取得突破,對國產(chǎn)芯片適配需求增加,今年國產(chǎn)芯片有較大發(fā)展機會(huì )。
DeepSeek 模型的火熱也暗含著(zhù) AI 應用爆發(fā)的機會(huì ),芯片廠(chǎng)商將目光轉向 AI 應用所需的推理算力。去年國內評測芯片時(shí)主要著(zhù)眼訓練,將國產(chǎn)芯片作為英偉達訓練的替代品,2025 年開(kāi)始將有一個(gè)變化,即大家會(huì )逐漸看國產(chǎn)芯片在推理市場(chǎng)的機會(huì )。
上海人工智能研究院數字經(jīng)濟研究中心資深咨詢(xún)顧問(wèn)于清揚提到 DeepSeek 對國產(chǎn)芯片的促進(jìn)?!窪eepSeek 通過(guò)強化學(xué)習機制將模型的無(wú)效訓練降低 60%,對并行計算的需求較傳統架構降低 40%,使國產(chǎn)芯片在特定計算任務(wù)中的能效比可達英偉達 GPU 的 75%?!?/p>
與此同時(shí),不僅限于 GPU 芯片,在 AI 推理側有細分優(yōu)勢的 ASIC、FPGA 等芯片也將有豐富的發(fā)展機會(huì )。值得注意的是,雖然前文所述 DeepSeek 的火熱給國產(chǎn)芯片公司帶來(lái)諸多機遇,但是由于 DeepSeek 對英偉達 CUDA 生態(tài)仍有明顯的路徑依賴(lài),國產(chǎn)芯片公司還需在互聯(lián)和生態(tài)等諸多方面進(jìn)一步完善。
評論