未來(lái)無(wú)所不在的AI架構導向邊緣和云端 逐步走向統一與可擴展
AI/ML訓練開(kāi)發(fā)出供推論使用的模型,用于識別任何需要辨識的對象。這些對象可以是智能城市街道上順暢或擁擠的交通、用于實(shí)現安全訪(fǎng)問(wèn)控制的身份證件和人臉比對的許可級別、向客服中心撥打電話(huà)的對話(huà)內容,抑或是郵政分發(fā)中心中信封上的手寫(xiě)地址。
訓練通常在企業(yè)數據中心或云端進(jìn)行,這些環(huán)境中有眾多高效能服務(wù)器、充裕的內存、硬件加速器和高速網(wǎng)絡(luò )可以投入工作負載。在這種環(huán)境下,需快速完成工作的訓練使用大量供給運算、網(wǎng)絡(luò )鏈接和冷卻的電力。盡管推論工作負載也能在數據中心或云端執行,但由于多種原因,越來(lái)越多推論任務(wù)正遷移至邊緣。
首先是延遲問(wèn)題。將原始數據發(fā)送到云端或數據中心耗用時(shí)間,因此需要更長(cháng)的時(shí)間來(lái)執行推論,而且將想要的答案或決策發(fā)送至邊緣的時(shí)間也會(huì )增加。以工廠(chǎng)自動(dòng)化、雷達、電子作戰等實(shí)時(shí)任務(wù)來(lái)說(shuō),費時(shí)過(guò)長(cháng)的決策會(huì )導致高昂成本。
將推論工作負載遷移到邊緣還有另外兩個(gè)原因:運算力和電力。隨著(zhù)AI/ML推論工作負載遷移到大量的邊緣裝置,這些邊緣裝置中的數百萬(wàn)個(gè)推論引擎總運算力將超越數據中心服務(wù)器的運算力。另外,邊緣推論引擎并不會(huì )消耗大量電力。
為解決邊緣推論的獨特需求,采用全新運算架構的芯片將于近期問(wèn)世。制造商強調,他們的組件能以更低的功耗達到頗高的TFLOPS和TOPS運算次數。盡管推論工作負載需要充裕的TFLOPS和TOPS是不爭的事實(shí),但這些專(zhuān)用邊緣推論芯片基于單向架構理念,一旦考慮互相結合訓練與推論工作負載,即有可能證明這種架構不堪使用。
當前,AI/ML模型訓練工作負載主要在數據中心內的高功耗CPU和GPU上執行,它們在此消耗大量電力,同時(shí)利用先進(jìn)的冷卻技術(shù)來(lái)執行訓練AI/ML模型所需的數萬(wàn)億次運算。這種訓練幾乎普遍采用具備高動(dòng)態(tài)范圍的浮點(diǎn)信息格式,透過(guò)允許對模型權重進(jìn)行微小的增量調整來(lái)實(shí)現最高模型精度。浮點(diǎn)運算耗電更多,因而需要額外的冷卻。此外,CPU和GPU在內存和其內部運算單元之間遷移大型訓練數據集時(shí)也會(huì )消耗大量電力。
如果要使用全精度浮點(diǎn)信息格式完成全部運算,大多數邊緣推論芯片難以負擔如此的硅或功耗。很多公司為了獲得高峰值TFLOPS和TOPS指標而做出妥協(xié),通常的做法是以精度略低的數據類(lèi)型代表AI/ML權重、啟動(dòng)和資料。邊緣AI/ML芯片的廠(chǎng)商會(huì )提供相關(guān)軟件工具,以降低受訓模型權重的精度,從而將模型轉換為較小數值格式,例如FP8、縮放整數,或者甚至是二進(jìn)制數據格式。這些較小的數據格式可為推論工作負載帶來(lái)優(yōu)勢,但也會(huì )損失一定程度的模型精度。用降低的精度重新訓練AI/ML模型通??梢曰謴托┰S精度。
現在試想一下,有一種可擴展的裝置架構,既可以部署在小型嵌入式邊緣裝置中,也可以部署在能夠聚集數據中心內執行的工作負載的大型裝置中。這些優(yōu)化措施除幫助改善邊緣功耗和成本效率,也能令數據中心的運算更密集、更具成本效益,以便降低用于推論和訓練的設備資本與營(yíng)運支出。
而支持全精度浮點(diǎn)格式和降精度浮點(diǎn)格式的AI/ML加速器可擴展架構,打破訓練與推論之間的人工界線(xiàn),為統一架構部署相同標準和熟悉的軟件工具。這類(lèi)高效率的邊緣AI加速器采用數據流和芯片廣播網(wǎng)絡(luò )等架構創(chuàng )新,允許從外部?jì)却娅@取的數據傳輸到芯片后多次重復使用。
在一些實(shí)際的應用案例中,導向機器學(xué)習的統一可擴展數據流架構,打破訓練與推論不同階段之間的壁壘。以聯(lián)邦學(xué)習(Federated Learning)為例,它解鎖全新類(lèi)型的AI/ML工作負載。對于眾多連結應用而言,聯(lián)邦學(xué)習可以取代透過(guò)一次性脫機訓練推導出的降精度AI/ML推論模型單向方法,并獲得由于欠缺代表的集中式脫機訓練集而難以實(shí)現的效能。
聯(lián)邦學(xué)習利用邊緣推論的重要特色,即裝置帶來(lái)遠超于原始模型訓練集,在眾多范圍暴露的不同輸入(inputs)。如設計得當,邊緣裝置能從額外輸入中學(xué)習,并在裝置部署過(guò)程中進(jìn)一步提升其模型精度??赡軙?huì )有數百、數千乃至數百萬(wàn)個(gè)邊緣裝置共同改善相同的AI/ML模型,以提供更優(yōu)質(zhì)的本地回復或決策。
以同一家廠(chǎng)商制造并遍布在世界各地醫院中的CT或MRI掃描儀為例。這些影像裝置的任務(wù)通常是發(fā)現癌癥腫瘤或其他疾病,并且能愈加采用AI/ML模型幫助放射科醫生辨別可疑組織。隨著(zhù)每臺現場(chǎng)裝置不斷改進(jìn)其模型,如果利用聯(lián)邦學(xué)習更新及改進(jìn)原始模型,可讓用于打造新影像裝置的原始訓練模型受益于相同的改良。
進(jìn)行更新時(shí),應確保只共享來(lái)自新增邊緣訓練的洞察,而非個(gè)人隱私數據,以利所有現場(chǎng)裝置都能在不侵犯隱私的情況下從這種額外訓練中獲益。聯(lián)邦學(xué)習在隱私保護裝置個(gè)人化方面具有廣泛適用性,因其可以針對特定用戶(hù)客制化視覺(jué)算法和語(yǔ)音算法效能。此外,也有網(wǎng)絡(luò )安全應用,透過(guò)網(wǎng)絡(luò )入口節點(diǎn)的協(xié)作學(xué)習即可發(fā)現主動(dòng)安全規則,而無(wú)需共享敏感的專(zhuān)用網(wǎng)絡(luò )流量。
統一的云端和邊緣運算架構優(yōu)勢在于利用相同的軟件二進(jìn)制,就能將模型依邏輯劃分為執行于云端和邊緣。統一架構可確保使用兼容的數據格式,以及確保優(yōu)化數據格式如稀疏性表示(sparsity representations)不會(huì )在云端和邊緣之間中斷??蓴U展的統一架構與貫穿于所部署應用生命周期的持續學(xué)習,與現時(shí)的常規訓練與推論做法不同,因為后者依賴(lài)數據中心的CPU和GPU與邊緣專(zhuān)用裝置。然而,隨著(zhù)AI/ML逐步普及,如果業(yè)界希望大幅提升效能、精度和能源效率,這種統一方式應為最合乎邏輯的途徑。
(本文作者為AMD資深副總裁Ivo Bolsens)
評論