存力與算力,AI時(shí)代誰(shuí)主沉???
在 2024 年的今天,人工智能已經(jīng)滲透到各個(gè)領(lǐng)域,從醫療診斷到智能交通,從金融分析到智能家居,AI 技術(shù)的發(fā)展正以前所未有的速度改變著(zhù)我們的生活和工作方式。
本文引用地址:http://dyxdggzs.com/article/202410/463418.htm這一背景下,算力和存力成為了支撐人工智能發(fā)展的兩大關(guān)鍵要素。究竟算力與存力誰(shuí)更重要,成為了一個(gè)備受關(guān)注的問(wèn)題。
何為算力與存力?
算力,顧名思義,是指計算能力。
算力是數字時(shí)代的核心驅動(dòng)力之一。隨著(zhù)人工智能、大數據等技術(shù)的不斷進(jìn)步,算力的需求呈現出爆炸式增長(cháng)。從云端的大規模數據處理到邊緣設備的實(shí)時(shí)計算,算力的提升使得我們能夠更快地處理數據、更準確地模擬復雜現象。
存力即數據存儲能力。海量的數據需要安全、可靠的存儲空間,而存力就是提供這一空間的關(guān)鍵。大數據、云存儲、區塊鏈等技術(shù)的發(fā)展,使得數據的存儲和管理變得更加高效。同時(shí),隨著(zhù)數據價(jià)值的不斷提升,存力的重要性也日益凸顯。強大的存力不僅可以保證數據的安全性和可靠性,還能夠為數據分析和挖掘提供堅實(shí)的基礎。
除了算力與存力,還有「一力」與這二者并稱(chēng)為「數據時(shí)代的三把利劍」,即運載力,簡(jiǎn)稱(chēng)運力。
運力是信息傳遞的關(guān)鍵。在數字世界中,數據的快速傳輸和高效共享至關(guān)重要。高速的網(wǎng)絡(luò )連接、穩定的帶寬以及低延遲的通信,這些都是運力的體現。
去年,工信部等六部門(mén)聯(lián)合印發(fā)《算力基礎設施高質(zhì)量發(fā)展行動(dòng)計劃》,提出到 2025 年,計算力方面,算力規模超過(guò) 300EFLOPS,智能算力占比達到 35%,東西部算力平衡協(xié)調發(fā)展。運載力方面,國家樞紐節點(diǎn)數據中心集群間基本實(shí)現不高于理論時(shí)延 1.5 倍的直連網(wǎng)絡(luò )傳輸,重點(diǎn)應用場(chǎng)所光傳送網(wǎng)(OTN)覆蓋率達到 80%,骨干網(wǎng)、城域網(wǎng)全面支持 IPv6,SRv6 等創(chuàng )新技術(shù)使用占比達到 40%。存儲力方面,存儲總量超過(guò) 1800EB,先進(jìn)存儲容量占比達到 30% 以上,重點(diǎn)行業(yè)核心數據、重要數據災備覆蓋率達到 100%。
算力、存力與運力皆舉足輕重,而要論誰(shuí)最重要,恐怕多數人都會(huì )覺(jué)得是算力。
畢竟,「算力緊缺」的氣氛常常被渲染起來(lái)。
爭搶 GPU,以期獲得更多算力
那么,如何獲取更多的算力呢?當下,主流的途徑是通過(guò)堆積算力芯片來(lái)實(shí)現,包括 CPU、GPU、FPGA、ASIC 等,其中 GPU 的應用最為廣泛。
在 AI 大火之際,科技巨頭們紛紛投身于一場(chǎng)激烈的 GPU 爭奪戰中。值得注意的是,由于單卡算力相對有限,為了縮短訓練時(shí)間,通常采用分布式訓練技術(shù),通過(guò)多臺節點(diǎn)構建出一個(gè)計算能力和顯存能力超大的集群。從建設進(jìn)度上看海外頭部廠(chǎng)商在 2022 年、2023 年已經(jīng)完成萬(wàn)卡集群搭建,國內頭部互聯(lián)網(wǎng)廠(chǎng)商和電信運營(yíng)商也加速萬(wàn)卡集群建設布局。
2023 年 5 月,谷歌推出的 AI 超級計算機 A3,搭載了約 26000 塊英偉達 H100 GPU。
在 2022 年,META宣布了一個(gè)由 1.6 萬(wàn)塊英偉達 A100 GPU 組成的集群。到了 2024 年初,META 進(jìn)一步擴大規模,建成了兩個(gè)各含 24576 塊 GPU 的集群,并設定了宏偉目標:到 2024 年底,構建一個(gè)包含 35 萬(wàn)塊英偉達 H100 GPU 的龐大基礎設施。
2023 年 8 月,特斯拉上線(xiàn)了一個(gè)集成 1 萬(wàn)塊英偉達 H100 GPU 的集群。
亞馬遜的 Amazon EC2 Ultra 集群采用了 2 萬(wàn)個(gè) H100 TensorCore GPU。
騰訊推出的星脈高性能網(wǎng)絡(luò ),能夠支持高達 10 萬(wàn)卡 GPU 的超大規模計算,網(wǎng)絡(luò )帶寬高達 3.2T。
字節跳動(dòng)提出的 MegaScale 生產(chǎn)系統,支撐 12288 卡 Ampere 架構訓練集群。中國移動(dòng)計劃今年商用哈爾濱、呼和浩特、貴陽(yáng)三個(gè)自主可控的萬(wàn)卡集群,總規模接近 6 萬(wàn)張 GPU 卡。
中國電信計劃在 2024 年上半年在上海規劃建設一個(gè)達到 15000 卡、總計算力超過(guò) 4500P 的國產(chǎn)萬(wàn)卡算力池,這將是國內首個(gè)超大規模國產(chǎn)算力液冷集群。2024 年 3 月,天翼云上海臨港國產(chǎn)萬(wàn)卡算力池已正式啟用。
中國聯(lián)通計劃在今年內,在上海臨港國際云數據中心建成中國聯(lián)通首個(gè)萬(wàn)卡集群,這一集群的建成,將為中國聯(lián)通在數據中心和云計算市場(chǎng)提供新的競爭優(yōu)勢??梢钥吹?,萬(wàn)卡集群的建設正如火如荼地進(jìn)行著(zhù)。然而,當擁有如此眾多的算力芯片時(shí),它們是否已充分發(fā)揮出最大潛力呢?
就目前狀況而言,答案似乎是否定的。
因為算力的釋放并非僅僅關(guān)乎 GPU 等算力芯片,而是需要全面考慮數據存儲、處理速度、網(wǎng)絡(luò )傳輸等多個(gè)環(huán)節的協(xié)同作用。
在此背景下,存力作為算力釋放過(guò)程中的重要一環(huán),其潛力和價(jià)值逐漸受到重視。
這時(shí)候,或許會(huì )有讀者發(fā)問(wèn):存力是否能成為提升算力水平、優(yōu)化算力利用的關(guān)鍵因素?存力究竟能在哪些方面為算力提供助力?以及,為了更有效地支持算力的提升,存力又該如何發(fā)展?
存力,如何助力算力?
如今隨著(zhù)大模型進(jìn)一步演進(jìn),不同要素的資源配置情況逐步發(fā)生了改變。其中,數據的重要性正提到了前所未有的高度,由此也正在帶來(lái)對存儲越來(lái)越嚴苛的要求。
在一個(gè)全新的視角下,數據與其背后的「存力」,正在成為影響大模型創(chuàng )新整體過(guò)程的關(guān)鍵因素。
存力給算力帶來(lái)的助力主要有以下幾點(diǎn):
首先,高效的存儲能力直接促進(jìn)了數據處理速度的飛躍。隨著(zhù)大模型訓練過(guò)程中數據量的爆炸性增長(cháng),快速、穩定的數據讀取與寫(xiě)入成為提升模型訓練效率的關(guān)鍵。存力通過(guò)優(yōu)化存儲架構、采用高性能存儲介質(zhì)以及智能數據管理技術(shù),實(shí)現了數據訪(fǎng)問(wèn)的低延遲與高并發(fā),極大地縮短了數據處理周期,使得模型能夠更快地從海量數據中汲取知識,加速迭代與優(yōu)化。
其次,存力增強了數據的安全性與可靠性。在大數據時(shí)代,數據泄露與丟失的風(fēng)險日益增加,而強大的存力體系通過(guò)加密存儲、多副本冗余、容災備份等機制,確保了數據的完整性和安全性,為模型的持續運行提供了堅實(shí)后盾。
再者,存力還促進(jìn)了數據的高效共享與協(xié)同。在大模型研發(fā)過(guò)程中,跨團隊、跨領(lǐng)域的數據合作日益頻繁,高效的存力系統能夠支持數據的快速傳輸與無(wú)縫對接,打破信息孤島,促進(jìn)知識融合與創(chuàng )新。通過(guò)構建統一的數據管理平臺,實(shí)現數據的集中管理、按需分配與權限控制,不僅提高了數據資源的利用效率,也加速了科研成果的轉化與應用。
最后,存力的發(fā)展還推動(dòng)了智能化存儲解決方案的誕生,為大模型提供了更加靈活、智能的數據支撐。借助 AI 算法與機器學(xué)習技術(shù),智能存儲系統能夠自動(dòng)識別數據特征、優(yōu)化存儲布局、預測并滿(mǎn)足數據訪(fǎng)問(wèn)需求,從而進(jìn)一步提升數據處理的智能化水平。這種智能化存儲與大模型的深度融合,將為未來(lái)的科技創(chuàng )新帶來(lái)無(wú)限可能。
通俗來(lái)講,在人工智能的蓬勃發(fā)展進(jìn)程中,僅僅擁有強大的 GPU 還遠遠不夠。畢竟數據在處理之前,需要先「搬過(guò)來(lái)」。有數據顯示,一個(gè)規模達 20 億的數據集,拷貝準備大約整整 30 天。這就意味著(zhù)倘若沒(méi)有出色的存儲系統作為支撐,GPU 也「巧婦難為無(wú)米之炊」。再者,在后續的加密存儲以及數據共享等方面,存力皆為算力帶來(lái)諸多強大助力。
倘若用建造高樓大廈舉例子,算力便是高聳入云的建筑主體,而存力則是堅實(shí)的地基,只有地基穩固,大廈才能拔地而起。
因此,倪光南院士也曾表示,算力中心的計算能力由存力、算力、運力三個(gè)因素決定。倪光南院士認為,用廣義算力去定義一個(gè)算力中心,才更準確。
需要什么樣的存儲?
從存儲方式來(lái)看,近些年中國數據量的發(fā)展十分迅猛,每年的復合增長(cháng)率約是 30% 左右。主要采用機械硬盤(pán) HDD,先進(jìn)半導體存儲技術(shù)滯后。閃存和 SSD 都屬于半導體存儲范疇,前者指存儲介質(zhì) (閃存顆粒) 后者指存儲設備 (固態(tài)硬盤(pán))。
從存儲領(lǐng)域的閃存市場(chǎng)占比情況來(lái)審視,在全球范圍內,閃存平均水平達到了 41.3%。而美國在這一領(lǐng)域表現突出,閃存占比高達 56.4%。相比之下,中國的閃存市場(chǎng)占比僅為 20.3%,與全球平均水平和美國相比仍存在一定差距。
海量數據的增長(cháng),對我國存儲提出了更高的需求,先進(jìn)存力成為了存力的重要發(fā)展方向。先進(jìn)存力主要是指企業(yè)級存儲中更加先進(jìn)的存力,其以「大容量、高性能」為基礎,以「先進(jìn)介質(zhì)、高效架構」為支撐,以「開(kāi)放生態(tài)、綠色低碳、安全可靠」為關(guān)鍵,可應用于更廣泛的關(guān)鍵場(chǎng)景的存儲能力。
針對這一現象,中國存儲可以做出的改進(jìn)之一便是利用 SSD 來(lái)取代 HDD。
當前 SSD 的演進(jìn)主要通過(guò)兩方面:一方面是容量,另一方面是性能和功耗。
在容量方面,AI 時(shí)代對于高容量的 SSD 需求正在快速上升。需要 SSD 不僅有更大的存儲容量,還要能夠在不犧牲性能的前提下,通過(guò)技術(shù)的改進(jìn)等提高 NAND 密度。另外,隨著(zhù) TLC 閃存架構開(kāi)始達到原始存儲容量的極限,QLC 代表了希望不斷突破主流消費 SSD 容量極限的 SSD 制造商的未來(lái)。目前,諸多存儲廠(chǎng)商都已經(jīng)發(fā)布 QLC 閃存。
在性能和功耗方面,隨著(zhù)數據中心對于存儲設備速度要求的不斷提升,SSD 需要提供更高的 IOPS(每秒輸入輸出操作次數)和帶寬(GBPS),在保證高性能的同時(shí)必須有效控制功率消耗,實(shí)現單位性能所需的能耗降低。
可喜的是,中國已經(jīng)有一些主流的存儲芯片公司可以提供達到一線(xiàn)的水平和生產(chǎn)能力的存儲產(chǎn)品,在 SSD 主控芯片方面,國內也已經(jīng)有十幾家廠(chǎng)商的產(chǎn)品得到商用。隨著(zhù) SSD 成本的不斷下探,有望為存力市場(chǎng)作出更大貢獻。
采用先進(jìn)的存儲介質(zhì)和技術(shù)
一些先進(jìn)的存儲介質(zhì)和技術(shù)也可給算力帶來(lái)一些助力,比如通過(guò)研究和開(kāi)發(fā)如相變存儲器(PCM)、阻變存儲器(RRAM)和磁性存儲器(MRAM)等新型 NVM 技術(shù)。這些存儲器具有高速讀寫(xiě)、低功耗、高耐用性和非易失性等優(yōu)點(diǎn),可以作為傳統存儲設備的補充或替代,提高存力和算力。
探索基于新型材料的存儲技術(shù),如二維材料(如石墨烯)。這些材料具有獨特的物理和電子特性,有望實(shí)現更高的存儲密度和性能,為未來(lái)的存力和算力提升提供新的途徑。
發(fā)展大容量的光存儲技術(shù)也是一個(gè)不錯的想法,光存儲具有長(cháng)期保存數據、高容量和低成本等優(yōu)點(diǎn),可以作為離線(xiàn)存儲或歸檔存儲的選擇,釋放其他存儲設備的空間,提高存力并為算力提供更多的可用存儲資源。
通過(guò)以上多種方法的綜合應用,可以有效地提升存力,進(jìn)而為算力的提升提供堅實(shí)的基礎和強大的支持。
存力中心建設,如火如荼
眼下算力中心興起的同時(shí),還要建設先進(jìn)的存力中心。
數與算、存與算存在失衡現象,也導致了數據割裂在不同數據中心中,數據歸集難、融合匯聚難、有效治理難、使用加工難、共享流通難,導致算力和應用缺乏有效的高質(zhì)量數據供給,算力的潛能被抑制,對算力和產(chǎn)業(yè)的賦能價(jià)值沒(méi)有充分發(fā)揮,數據中心的商業(yè)和產(chǎn)業(yè)持續正向閉環(huán)存在巨大挑戰。
基于此,華為作為全球領(lǐng)先的信息與通信技術(shù)(ICT)解決方案供應商,致力于建設高性能、高可靠的存力中心,以滿(mǎn)足企業(yè)數字化轉型和智能世界建設的需求。華為通過(guò)整合自身在存儲技術(shù)、云計算、人工智能等領(lǐng)域的優(yōu)勢,為客戶(hù)提供全方位的存力解決方案,包括數據存儲、數據管理、數據保護等服務(wù)。
隨著(zhù)云計算業(yè)務(wù)的不斷發(fā)展,阿里巴巴也在積極建設大規模的存力中心。通過(guò)采用先進(jìn)的存儲技術(shù)和架構,如分布式存儲、軟件定義存儲等,阿里巴巴能夠為客戶(hù)提供高可用、高可靠、高擴展性的存儲服務(wù)。同時(shí),阿里巴巴還在不斷探索新的存儲技術(shù)和應用場(chǎng)景,如邊緣存儲、云原生存儲等,以滿(mǎn)足不同客戶(hù)的需求。
騰訊在云計算、大數據、人工智能等領(lǐng)域擁有強大的技術(shù)實(shí)力和豐富的經(jīng)驗,也在積極建設存力中心。騰訊通過(guò)優(yōu)化存儲架構、提高存儲效率、加強數據安全等措施,為客戶(hù)提供高效、穩定、安全的存儲服務(wù)。同時(shí),騰訊還在積極探索新的存儲技術(shù)和應用模式,如智能存儲、區塊鏈存儲等,以推動(dòng)存儲行業(yè)的創(chuàng )新發(fā)展。
中國科學(xué)院計算技術(shù)研究所作為國內頂尖的科研機構,其在存儲技術(shù)領(lǐng)域擁有深厚的技術(shù)積累和強大的研發(fā)實(shí)力。該研究所致力于建設先進(jìn)的存力中心,開(kāi)展存儲技術(shù)的研究和開(kāi)發(fā),包括新型存儲介質(zhì)、存儲系統架構、存儲算法等方面的研究。通過(guò)與企業(yè)合作,將科研成果轉化為實(shí)際應用,為我國存儲產(chǎn)業(yè)的發(fā)展提供技術(shù)支持。
清華大學(xué)計算機科學(xué)與技術(shù)系在存儲技術(shù)領(lǐng)域也有著(zhù)卓越的研究成果和豐富的教學(xué)經(jīng)驗。該系積極參與存力中心的建設,開(kāi)展存儲技術(shù)的研究和教學(xué)工作,培養存儲技術(shù)領(lǐng)域的專(zhuān)業(yè)人才。同時(shí),清華大學(xué)還與企業(yè)合作,開(kāi)展產(chǎn)學(xué)研合作項目,推動(dòng)存儲技術(shù)的創(chuàng )新和應用。
算、存、運在數據時(shí)代至關(guān)重要。如果說(shuō)存力已經(jīng)開(kāi)始逐漸受到重視,那么國產(chǎn)運力相對來(lái)說(shuō)可能還是一個(gè)「小透明」。在大力發(fā)展算力、支持存力的過(guò)程中,請同步關(guān)注「運力」的重要性。
評論