<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 網(wǎng)絡(luò )與存儲 > 設計應用 > 人工智能的第三支柱:數據存儲

人工智能的第三支柱:數據存儲

—— 借助人工智能數據周期(AI Data Cycle)存儲框架,釋放數據的AI力量
作者:西部數據公司副總裁兼中國區總經(jīng)理 蔡耀祥 時(shí)間:2024-09-04 來(lái)源:EEPW 收藏


本文引用地址:http://dyxdggzs.com/article/202409/462667.htm

1725440623193515.png

公司副總裁兼中國區總經(jīng)理 蔡耀祥

如今,AI無(wú)處不在。各個(gè)行業(yè)正通過(guò)對基礎設施進(jìn)行大量投資,來(lái)支持創(chuàng )新的應用和用例。我們大都對于時(shí)下GPU、CPU和內存這類(lèi)以計算為主的基礎設施有所耳聞,而作為AI的“第三支柱”,也正對AI起到更為關(guān)鍵的作用。

對于文本的AI訓練相對簡(jiǎn)單,但當轉向音頻、圖像以及視頻時(shí),所生成的數據量將會(huì )呈現指數級增長(cháng),對存儲的需求自然而然會(huì )有很快的攀升。而且隨著(zhù)時(shí)間的推移,數據的總量也在持續增長(cháng)。IDC預計截至2028年,每年產(chǎn)生的數據總量將接近400 ZB(澤字節,Zettabyte)[1]。

在數據生成量不斷增長(cháng)的趨勢下,技術(shù)對于人工智能數據周期(AI Data Cycle)中不同階段基礎設施和工作負載的容量、性能、能耗效益以及成本效益都至關(guān)重要。AI系統在處理和分析現有數據的同時(shí)也會(huì )產(chǎn)生新數據,其中很多數據會(huì )因其功能性或娛樂(lè )性被保存。新型AI用例和更先進(jìn)的模型令現有數據資源庫和額外數據源對模型上下文和訓練的價(jià)值更甚。數據的不斷生成促成了更多的,而更多的數據存儲又進(jìn)一步推動(dòng)數據生成,一個(gè)良性循環(huán)的人工智能數據周期就此誕生。

在今年6月正式發(fā)布了人工智能數據周期存儲框架,該框架闡明了在大型AI工作負載的六個(gè)階段中每一階段的存儲重點(diǎn),幫助企業(yè)級數據中心規劃者厘清AI和數據存儲之間的動(dòng)態(tài)關(guān)系。也正積極調整產(chǎn)品路線(xiàn)圖,以滿(mǎn)足在A(yíng)I驅動(dòng)下不斷升級的需求,更大限度地提升性能和容量并降低能耗和TCO(總體擁有成本,Total Cost of Ownership)。

人工智能數據周期的六大階段

西部數據通過(guò)人工智能數據周期,詳細解讀了AI管道六個(gè)階段中數據從收集、訓練到推理的存儲細節。

1725440646286579.png

<人工智能數據周期>

讓我們簡(jiǎn)單了解一下人工智能數據周期的各個(gè)階段。

1)原始數據存檔,內容存儲:從各種來(lái)源安全高效地收集并存儲原始數據,以用于訓練模型。所收集數據的質(zhì)量和多樣性至關(guān)重要,為后續的所有階段奠定了基礎。

在此階段,查找并收集數據集需要大容量存儲,通常來(lái)說(shuō)會(huì )用到大容量企業(yè)級HDD(eHDD)。由于企業(yè)級HDD可以經(jīng)濟高效地存儲巨量規?;瘮祿?,且擁有更低的TCO,被視作是建立深度內容資源庫的理想選擇。全球線(xiàn)上和可訪(fǎng)問(wèn)的冷數據及溫數據都主要通過(guò)它來(lái)保存。具體來(lái)說(shuō),選用單盤(pán)容量點(diǎn)更高的HDD能夠幫助云和企業(yè)級用戶(hù)提升存儲密度,實(shí)現數據中心的規?;瘮U展,滿(mǎn)足不斷增長(cháng)的容量需求。

2)數據準備和轉換:在該階段,數據會(huì )被處理、清洗和轉換,以供模型訓練使用。在A(yíng)I場(chǎng)景下,這一階段需要執行的操作很復雜,并且對性能的要求也更高。數據需要首先被轉化為AI模型可以使用的信息,包括對文本、圖片、視頻以及所有輸入AI模型的內容進(jìn)行矢量化處理。這也是AI管道中對各方面需求都更高的階段,對計算和存儲基礎設施的要求也更加苛刻。

這是一個(gè)對性能要求很高且存儲密集的階段,該階段的存儲選擇從HDD轉向了SSD,從而建立高速數據湖以支持數據準備和轉換。在該階段,用戶(hù)會(huì )部署采用大容量企業(yè)級SSD(eSSD)的全閃存存儲系統,以增強現有的基于HDD的資源庫,或用于新的全閃存存儲層。

3)AI模型訓練:AI模型會(huì )在該階段進(jìn)行反復訓練,從而基于訓練數據做出準確的預測。具體來(lái)說(shuō),模型是在高性能超級計算機上進(jìn)行訓練的,而訓練效率在很大程度上取決于最大化GPU利用率和專(zhuān)門(mén)的高性能存儲。

從數據中心的角度來(lái)看,這一階段的工作負載對計算性能的要求極高,所以需要我們再次轉變存儲策略。這一階段理想的SSD是高性能、低容量、以計算為目的企業(yè)級SSD,確保向GPU集成系統輸入數據的環(huán)節不會(huì )因存儲性能不足而受到影響。此外,在該過(guò)程中還有很多復雜的操作,如檢驗點(diǎn)、歸檔等,可能會(huì )根據計算狀態(tài),將整個(gè)數據集寫(xiě)回數據湖或進(jìn)行檢索。因此,計算密集型存儲和基于閃存的數據湖在該階段有時(shí)會(huì )混合應用。

4)界面交互:這一階段涉及為AI模型建立用戶(hù)友好型界面,包括各類(lèi)應用程序接口(API)、儀表板和工具等,使得上下文的特定數據和終端用戶(hù)的提示可以結合起來(lái)。AI模型會(huì )被整合到現有的互聯(lián)網(wǎng)和客戶(hù)端應用程序中,在不取代現有系統的情況下增強其功能,進(jìn)一步推動(dòng)了存儲需求。

這一階段的存儲重點(diǎn)在終端,比如在客戶(hù)端設備、移動(dòng)設備以及物聯(lián)網(wǎng)設備。這些都是真正執行推理的地方。這里不僅有較高的性能需求來(lái)應對推理過(guò)程,也有更大的容量需求來(lái)應對新數據的產(chǎn)生。

兼顧性能和容量的客戶(hù)端存儲設備填補了這些需求。最終這些內容會(huì )回到基于HDD的長(cháng)期內容存儲系統中,無(wú)論是歸檔或云端的。換言之,PC和筆記本電腦需要容量更大、性能更強的客戶(hù)端SSD(cSSD),手機、物聯(lián)網(wǎng)系統和汽車(chē)會(huì )需要容量更大的嵌入式閃存設備,以在邊緣已有的應用中增強AI。

5)AI推理引擎:第五階段是奇跡實(shí)時(shí)發(fā)生的地方。在這個(gè)階段,訓練好的模型被部署到數據生產(chǎn)環(huán)境中,對新的數據進(jìn)行分析并提供實(shí)時(shí)的預測或者生成新的內容。推理引擎的效率將直接影響AI響應的及時(shí)性和準確性。

這一階段需要用于緩存的高性能eSSD、用于高速數據湖的大容量eSSD、大容量cSSD以及用于A(yíng)I驅動(dòng)邊緣設備的嵌入式閃存。

6)新內容生成:最后一個(gè)階段是新內容誕生的地方。AI模型所帶來(lái)的洞察分析經(jīng)常會(huì )產(chǎn)生新的數據,這些數據因其價(jià)值或趣味性而被存儲。盡管這一階段標志著(zhù)循環(huán)的結束,但與此同時(shí)生成的新數據又會(huì )被反饋到數據周期中,通過(guò)不斷提升數據價(jià)值以用于未來(lái)模型的訓練和分析,實(shí)現持續的改進(jìn)和創(chuàng )新。

生成的內容將被存儲到大容量eHDD中,在數據中心實(shí)現大容量存儲、備份和歸檔。同時(shí),大容量cSSD和嵌入式閃存設備也將用于存儲邊緣設備中額外由AI驅動(dòng)的數據。

合理的存儲產(chǎn)品組合,進(jìn)一步優(yōu)化AI領(lǐng)域投資效益

上述每個(gè)階段都有著(zhù)不同的基礎設施需求、計算需求、存儲需求以及不同的工作負載特性,但每個(gè)階段都是整個(gè)人工智能數據周期中不可分割的一部分。針對不同階段差異化的存儲需求,企業(yè)可以通過(guò)優(yōu)化存儲組合來(lái)應對大規模AI運算負載,搭建更為先進(jìn)的存儲基礎架構,進(jìn)而提高AI工作流的效率并降低TCO,進(jìn)一步優(yōu)化在A(yíng)I領(lǐng)域的投資效益。

西部數據已戰略性地調整閃存和HDD產(chǎn)品和技術(shù)路線(xiàn)圖,幫助應對人工智能數據周期中每個(gè)關(guān)鍵環(huán)節的數據存儲需求。

西部數據現已正式向指定客戶(hù)出樣具備行業(yè)領(lǐng)先容量的32TB 企業(yè)級ePMR HDD。全新的大容量Ultrastar DC HC690 UltraSMR HDD專(zhuān)為超大規模云和企業(yè)級數據中心的巨量數據存儲需求設計。在人工智能工作流這類(lèi)對大規模數據存儲和低TCO有嚴格要求的應用場(chǎng)景下,該產(chǎn)品可發(fā)揮重要作用。此外,憑借先進(jìn)的ePMR技術(shù)和OptiNAND技術(shù)、長(cháng)遠的產(chǎn)品規劃和可預見(jiàn)的容量提升,西部數據可以幫助用戶(hù)充分應對當前乃至未來(lái)AI應用對存儲日益增長(cháng)的需求。

1725440667376896.png

<西部數據Ultrastar DC HC690 UltraSMR HDD>

為滿(mǎn)足市場(chǎng)對大容量SSD的需求,西部數據全新的企業(yè)級SSD將容量提升到了32TB和64TB,并針對人工智能數據周期中第二階段的高性能存儲需求和其他大容量性能存儲需求著(zhù)重優(yōu)化。全新Ultrastar DC SN655+企業(yè)級SSD采用PCIe Gen 4接口,并集成了多項用于服務(wù)AI用例的軟件特性和功能。

image.png

<西部數據Ultrastar DC SN655+ 企業(yè)級SSD>

針對人工智能數據周期第三、四、五階段的高性能存儲需求,西部數據推出了旗下首款企業(yè)級PCIe Gen 5.0解決方案——Ultrastar DC SN861 SSD,擁有市場(chǎng)領(lǐng)先的隨機讀寫(xiě)表現,容量高達16TB,隨機讀取性能相比上一代產(chǎn)品提升約3倍,超低的延遲和非凡的響應速度尤其適用于大語(yǔ)言模型(Large Language Model, LLM)的訓練、推理和AI服務(wù)部署。此外,更低的能耗能夠提供更高的每瓦特IOPS(IOPS/Watt),有助于企業(yè)進(jìn)一步降低TCO。PCIe Gen 5帶來(lái)的帶寬提升滿(mǎn)足了AI行業(yè)計算密集型工作環(huán)境對高速計算和低時(shí)延的需求。

1.png


<西部數據Ultrastar DC SN861企業(yè)級SSD – U.2>

1725441002837281.png

<西部數據Ultrastar DC SN861企業(yè)級SSD – E1.S>

AI提速內容增長(cháng),數據存儲未來(lái)可期

在數據中心,預計未來(lái)五年內,HDD 和企業(yè)級SSD 都有顯著(zhù)的 EB 級增長(cháng)機會(huì )。

在客戶(hù)端,無(wú)論是移動(dòng)設備還是PC市場(chǎng)上,越來(lái)越多的支持AI以及AI驅動(dòng)的PC和移動(dòng)設備正在涌現。這些設備對性能的要求更高,同時(shí)由于需要處理和存儲的數據量正不斷增加,對大容量的存儲需求也在上升。這些趨勢共同推動(dòng)了存儲需求的大幅度增長(cháng),西部數據預計在未來(lái)五年內,PC和筆記本電腦市場(chǎng)的cSSD需求會(huì )出現25%到35%的增長(cháng),智能手機的閃存需求會(huì )出現40%到50%的增長(cháng)。

人工智能數據周期展示了這一持續生成數據和使用數據的循環(huán),并闡述了這一循環(huán)是如何加速對高性能且可擴展的存儲技術(shù)的需求。存儲對管理大型AI數據集、高效重構復雜數據并推動(dòng)進(jìn)一步創(chuàng )新來(lái)說(shuō)至關(guān)重要。西部數據深刻理解AI和數據存儲之間的動(dòng)態(tài)關(guān)系,在不斷提供更大容量產(chǎn)品的基礎上,為下一代AI工作負載所需要的極致性能和耐用性提供量身打造的存儲解決方案。憑借持續豐富擴展的產(chǎn)品組合、長(cháng)遠的技術(shù)路線(xiàn)和不懈突破創(chuàng )新,西部數據將幫助用戶(hù)釋放AI的革新力量,創(chuàng )造更多價(jià)值。


[1] 來(lái)源: IDC Global Datasphere Forecast, 2024-2028, 2024年5月, US52076424



關(guān)鍵詞: 數據存儲 西部數據

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>