極光超算推動(dòng)生成式AI發(fā)展,將支持運行當今規模最大的大語(yǔ)言模型!
作為阿貢國家實(shí)驗室Aurora超算的首席架構師和主要研究員,Olivier Franza在這臺極具雄心的科學(xué)儀器落地的過(guò)程中發(fā)揮了主導作用。
本文引用地址:http://dyxdggzs.com/article/202308/450034.htmAurora超算是英特爾最近參與的備受矚目的項目之一,它對英特爾整個(gè)系統產(chǎn)品組合都挺有挑戰性。事實(shí)上,Aurora超算不僅是世界上最大的GPU集群,同時(shí),預計將成為第一臺峰值性能達到每秒2百億億次(2×10^18)浮點(diǎn)運算能力的超算。
作為一位在英特爾工作了22年的老兵,在面對Aurora超算時(shí),Olivier Franza還是感受到了壓力。
2016年,Olivier Franza作為系統硬件架構師加入了Aurora項目,2021年,他成了首席架構師,目睹了Aurora項目向基于GPU架構的重大轉變。
“首席架構師要做的就是根據客戶(hù)的高標準要求,來(lái)調整超算的整體系統架構,”Franza解釋說(shuō)?!笆紫軜嫀熞矔?huì )關(guān)注一些基本的參數,比如總體性能指標,功耗情況,還有一些RAS(可靠性、可用性、可維護性)特性,這些對于構建有擴展性的系統都至關(guān)重要?!?/p>
當然,首席架構師要關(guān)注的是整個(gè)系統方方面面,從一個(gè)個(gè)節點(diǎn)到一個(gè)個(gè)機架再到整個(gè)系統,還要包括各種網(wǎng)絡(luò )和存儲組件,都需要考慮到。
一次技術(shù)路線(xiàn)轉變?yōu)樗茉煳磥?lái)產(chǎn)品創(chuàng )造了機會(huì )
Aurora超算是早期規劃中計劃采用一系列的英特爾產(chǎn)品技術(shù)。隨著(zhù)英特爾產(chǎn)品路線(xiàn)的調整,Aurora的規劃也做出改變。
當英特爾宣布打造數據中心GPU產(chǎn)品線(xiàn)后,Franza參與到了英特爾數據中心GPU Max系列產(chǎn)品的設計討論工作當中。
所以說(shuō),Aurora超算不是一步到位成現在這樣的。Aurora超算的構建過(guò)程,影響著(zhù)英特爾戰略和產(chǎn)品線(xiàn)規劃,也使得Aurora超算能在很高的層面解決規模和性能問(wèn)題。
Franza表示,英特爾通過(guò)從組件到系統做出很多調整來(lái)滿(mǎn)足Aurora超算的需求。
比如,英特爾至強CPU Max系列處理器的架構和概念,就衍生自英特爾至強Phi的一些特性,這是第一個(gè)在封裝里集成了高帶寬和高容量創(chuàng )新內存架構的產(chǎn)品。
此外,為了追求更高的性能,Aurora超算的各種子系統都取得了一些進(jìn)步,從刀片服務(wù)器的散熱,到高密度集成的方式再到存儲部分,都有許多創(chuàng )新。
值得一提的是,在這一過(guò)程中,英特爾還構建了一個(gè)全新的存儲系統——DAOS(分布式異步對象存儲)。
Franza表示,這是一個(gè)開(kāi)源項目,可以在傳統硬件上實(shí)現高速存儲,而Aurora超算是首批使用DAOS的用戶(hù)之一,同時(shí)也是目前DAOS部署規模最大的用戶(hù)。
從設計組件到把數千個(gè)系統連在一起
Aurora超算項目加強了英特爾系統級思考能力,也推動(dòng)了英特爾內部各業(yè)務(wù)部門(mén)之間的協(xié)作,與外部阿貢科學(xué)家和HPE(HPE是該項目的另外一個(gè)主要參與者)工程師之間的協(xié)作,有很多跨職能部門(mén)和跨組織的協(xié)作工作。
“讓一整個(gè)團隊統一行動(dòng),交付像Aurora這樣的超級計算機,對我們許多人來(lái)說(shuō),是一生難得一次的經(jīng)歷?!盕ranza說(shuō)。
盡管工程師在六月份就安裝了最后一臺刀片服務(wù)器,但Aurora超算后續的大規模測試、穩定性驗證還需要Franza 夜以繼日的工作。
Franza為一個(gè)大的團隊提供指導,該團隊負責Aurora超算的啟動(dòng)、驗證、穩定、優(yōu)化工作,盡可能發(fā)揮系統在負載下的性能表現。其中最值得注意的是High Performance Linpack(HPL)基準測試,這是Top500榜單的排名依據,榜單上都是全球最強的超算系統。
每天早上,Franza都會(huì )仔細檢查每個(gè)節點(diǎn)在夜間的運行情況,并為第二天及以后的工作制定計劃。每天下午,Franza都會(huì )開(kāi)會(huì )總結進(jìn)展和遇到的難題。這樣的工作每天都有,而機器也一直在運轉當中。
“我們會(huì )系統地進(jìn)行驗證,”Franza解釋說(shuō)?!跋葟膯蝹€(gè)刀片服務(wù)器開(kāi)始,然后轉向機架規模,再到多個(gè)機架規模,以此進(jìn)行大規模驗證?!?/p>
Aurora超算由10624臺刀片服務(wù)器組成,擁有63744塊英特爾Max系列GPU,是世界上規模最大的GPU集群。在166個(gè)機架當中,使用了一共21248塊英特爾至強Max CPU。
Franza介紹稱(chēng),Aurora超算中心的大小相當于4個(gè)網(wǎng)球場(chǎng)那么大,聽(tīng)起來(lái)規模就很大,但只有親眼看到它,才會(huì )真正意識到它有多大。
Franza的首要工作就是確保系統穩定性,功能完善,還要能正常運行。這是一項非常艱巨的任務(wù),而Franza已經(jīng)看到了勝利的曙光。
走在數據中心的通道里,看著(zhù)燈光閃爍著(zhù),看著(zhù)機器在正常運轉,這令Franza感到神清氣爽,并且很有滿(mǎn)足感和成就感。
“一生一次難得一次”的努力,打造解決科學(xué)難題的超級計算機
打造一座有影響力的科研超級計算機固然會(huì )面臨很多難題和阻礙,但考慮到Aurora超算在癌癥研究方面的巨大潛力,有機會(huì )讓所有人受益,Franza內心的使命感支撐他走了過(guò)來(lái)。
Aurora超算不僅會(huì )用于解決世界上一些最復雜的科學(xué)和工程問(wèn)題,它還是運行生成式AI,并將生成式AI用于研究的理想平臺。
據了解,Aurora超算將支持迄今為止,規模最大的大型語(yǔ)言模型,即1萬(wàn)億參數的Aurora GenAI項目,從而提高科學(xué)家的工作效率、簡(jiǎn)化科學(xué)家的工作。
Franza做的是一件了不起的事情,而工作中令他感到欣慰的還有團隊協(xié)作和友情。
Aurora超算是一項工程量浩大的項目,需要許多人付出長(cháng)期努力,需要大量的毅力。
從Franza的介紹中了解到,其核心團隊一直保持著(zhù)馬拉松式的心態(tài),直到最后一刻都不能放松,團隊需要的是那種能夠長(cháng)時(shí)間專(zhuān)注于極具挑戰性事物的人,而這些人最終所取得的成就是大部分人都很難做到的。
文章來(lái)源:DOIT
評論