摩爾線(xiàn)程CEO張建中:萬(wàn)卡集群是AI主戰場(chǎng)上的標配
「從今天起,世界徹底改變了?!惯@是 GPT-3 算法的發(fā)明人埃德·萊昂·克林格在 GPT-3 出現時(shí)說(shuō)的一句話(huà)。
本文引用地址:http://dyxdggzs.com/article/202407/460864.htm這是一個(gè) AI 的時(shí)代,這是一個(gè)算力的時(shí)代。
今日,摩爾線(xiàn)程重磅宣布其 AI 旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案實(shí)現重大升級,從當前的千卡級別大幅擴展至萬(wàn)卡規模。
同時(shí),摩爾線(xiàn)程聯(lián)合中國移動(dòng)通信集團青海有限公司、中國聯(lián)通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大數據科技有限公司,分別就三個(gè)萬(wàn)卡集群項目進(jìn)行了戰略簽約,多方聚力共同構建好用的國產(chǎn) GPU 集群。
此外,我們從現場(chǎng)也看到摩爾線(xiàn)程的產(chǎn)品能力和強大的生態(tài)鏈接力。與來(lái)自清華系兩家公司無(wú)問(wèn)芯穹和清程極智已經(jīng)開(kāi)始深度合作,無(wú)問(wèn)芯穹是由清華大學(xué)電子工程系系主任汪玉教授發(fā)起的,清程極智由清華大學(xué)計算機系鄭緯民院士發(fā)起的。還有京東、360、智平方等多家國內企業(yè),夸娥智算集群助力其在大模型訓練、大模型推理、具身智能等不同場(chǎng)景和領(lǐng)域的創(chuàng )新。
萬(wàn)卡是最低標配
大模型自問(wèn)世以來(lái),關(guān)于其未來(lái)的走向和發(fā)展趨勢亟待時(shí)間驗證,但從當前來(lái)看,幾種演進(jìn)趨勢值得關(guān)注,使得其對算力的核心需求也愈發(fā)明晰。
第一,Scaling Law 將持續奏效。需要單點(diǎn)規模夠大并且通用的算力才能快速跟上技術(shù)演進(jìn)。第二,Transformer 架構不能實(shí)現大一統,和其他架構會(huì )持續演進(jìn)并共存,形成多元化的技術(shù)生態(tài)。第三,AI、3D 和 HPC 跨技術(shù)與跨領(lǐng)域融合不斷加速,大模型的訓練和應用環(huán)境更加復雜多元。
隨著(zhù)計算量不斷攀升,大模型訓練亟需超級工廠(chǎng),即一個(gè)「大且通用」的加速計算平臺,以縮短訓練時(shí)間。以 Llama 3 為例,在它問(wèn)世之際,Meta 就公布了其基礎設施詳情:「我們在兩個(gè)定制的 24K GPU 集群上做訓練?!?/span>
摩爾線(xiàn)程創(chuàng )始人張建中提出了一個(gè)標準:「AI 主戰場(chǎng),萬(wàn)卡是最低標配?!?/span>
國產(chǎn)萬(wàn)卡萬(wàn) P 萬(wàn)億大模型訓練平臺
夸娥(KUAE)是摩爾線(xiàn)程智算中心全棧解決方案,是以全功能 GPU 為底座,軟硬一體化、完整的系統級算力解決方案,包括以夸娥計算集群為核心的基礎設施、夸娥集群管理平臺(KUAE Platform)以及夸娥大模型服務(wù)平臺(KUAE ModelStudio),旨在以一體化交付的方式解決大規模 GPU 算力的建設和運營(yíng)管理問(wèn)題。
基于對 AI 算力需求的深刻洞察和前瞻性布局,摩爾線(xiàn)程夸娥智算集群可實(shí)現從千卡至萬(wàn)卡集群的無(wú)縫擴展,旨在滿(mǎn)足大模型時(shí)代對于算力「規模夠大+計算通用+生態(tài)兼容」的核心需求,通過(guò)整合超大規模的 GPU 萬(wàn)卡集群、極致的計算效率優(yōu)化以及高度穩定的運行環(huán)境,以萬(wàn)卡智算集群的新超級工程,重新定義國產(chǎn)集群計算能力的新標準。
夸娥萬(wàn)卡智算解決方案具備多個(gè)核心特性:
超大算力,萬(wàn)卡萬(wàn) P。浮點(diǎn)運算能力達到 10Exa-Flops,大幅提升單集群計算性能,能夠為萬(wàn)億參數級別大模型訓練提供堅實(shí)算力基礎。
超高穩定,月級長(cháng)穩訓練。在集群穩定性方面,摩爾線(xiàn)程夸娥萬(wàn)卡集群平均無(wú)故障運行時(shí)間超過(guò) 15 天,最長(cháng)可實(shí)現大模型穩定訓練 30 天以上,周均訓練有效率在 99% 以上,遠超行業(yè)平均水平。
極致優(yōu)化,超高 MFU:實(shí)現大模型的高效率訓練,MFU 最高可達到 60%。在系統軟件層面,基于極致的計算和通訊效率優(yōu)化等技術(shù)手段,大幅提升集群的執行效率和性能表現。
全能通用,生態(tài)友好:可加速 LLM、MoE、多模態(tài)、Mamba 等不同架構、不同模態(tài)的大模型。s 同時(shí),基于高效易用的 MUSA 編程語(yǔ)言、完整兼容 CUDA 能力和自動(dòng)化遷移工具 Musify,加速新模型「Day0」級遷移,實(shí)現生態(tài)適配「Instant On」,助力客戶(hù)業(yè)務(wù)快速上線(xiàn)。
構建萬(wàn)卡集群并非一萬(wàn)張 GPU 卡的簡(jiǎn)單堆疊,而是一項高度復雜的超級系統工程。它涉及到超大規模的組網(wǎng)互聯(lián)、高效率的集群計算、長(cháng)期穩定性和高可用性等諸多技術(shù)難題。
張建中也感嘆到:「萬(wàn)卡集成的難度比登喜馬拉雅山還難?!?/span>
共建大模型應用生態(tài)
根據《2023~2024 年中國人工智能計算力發(fā)展評估報告》,中國智能算力規模正處于高速增長(cháng)狀態(tài)。預計到 2027 年,中國智能算力規模將達 1117.4EFLOPS,2022~2027 年期間的年復合增長(cháng)率為 33.9%。
萬(wàn)卡集群的建設需要產(chǎn)業(yè)界的齊心協(xié)力,為實(shí)現大模型創(chuàng )新應用的快速落地,讓國產(chǎn)算力「為用而建」。
在今日的發(fā)布會(huì )線(xiàn)程,摩爾線(xiàn)程攜手中國移動(dòng)通信集團青海有限公司、中國聯(lián)通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大數據科技有限公司,分別就青海零碳產(chǎn)業(yè)園萬(wàn)卡集群項目、青海高原夸娥萬(wàn)卡集群項目、廣西東盟萬(wàn)卡集群項目進(jìn)行了戰略簽約。
今年 5 月,摩爾線(xiàn)程與無(wú)問(wèn)芯穹正式完成基于國產(chǎn)全功能 GPU 千卡集群的 3B 規模大模型實(shí)訓。該模型名為「MT-infini-3B」。MT-infini-3B 模型訓練總用時(shí) 13.2 天,經(jīng)過(guò)精度調試,實(shí)現全程穩定訓練不中斷,集群訓練穩定性達到 100%,千卡訓練和單機相比擴展效率超過(guò) 90%。在行業(yè)內率先開(kāi)啟了國產(chǎn)大語(yǔ)言模型與國產(chǎn) GPU 千卡智算集群深度合作的新范式。
清程極智與摩爾線(xiàn)程合作的過(guò)程中,發(fā)現其硬件架構、指令集、編譯器、MUSA 軟件棧等設計非常優(yōu)秀,極具潛力。清程極智將與摩爾線(xiàn)程強強聯(lián)合,攜手打造世界水平的大模型基礎設施。
此外,摩爾線(xiàn)程還與360、京東云、智平方等多家國內企業(yè)合作。
結語(yǔ)
隨著(zhù)今年「AI+」首次被寫(xiě)入兩會(huì )工作報告,AI 算力成為新質(zhì)生產(chǎn)力的重要引擎。
智算中心不應只是硬件的堆積,更是對軟硬一體化的 GPU 智算系統整合能力的考驗,GPU 分布式計算系統的適配、算力集群的管理和高效推理引擎的應用等,都是提高算力中心可用性的重要因素。
四年多的潛心發(fā)展,摩爾線(xiàn)程在 AI GPU 方面具備了強勁的實(shí)力,構建起了一張包括芯片、板卡、服務(wù)器、集群和軟件棧的全棧 AI 產(chǎn)品版圖,并且已經(jīng)多點(diǎn)實(shí)現落地。
正如摩爾線(xiàn)程創(chuàng )始人兼 CEO 張建中所言:「當前,我們正處在生成式人工智能的黃金時(shí)代,技術(shù)交織催動(dòng)智能涌現,GPU 成為加速新技術(shù)浪潮來(lái)臨的創(chuàng )新引擎??涠鹑f(wàn)卡智算集群作為摩爾線(xiàn)程全棧 AI 戰略的一塊重要拼圖,可為各行各業(yè)數智化轉型提供澎湃算力,不僅有力彰顯了摩爾線(xiàn)程在技術(shù)創(chuàng )新和工程實(shí)踐上的實(shí)力,更將成為推動(dòng) AI 產(chǎn)業(yè)發(fā)展的新起點(diǎn)?!?/span>
評論