自適應計算平臺可提供高效 AI 加速
AI 已經(jīng)開(kāi)始改變我們生活的方方面面,帶動(dòng)了顯著(zhù)的社會(huì )進(jìn)步。從自動(dòng)駕駛汽車(chē)到 AI 輔助醫療診斷,我們正處于一個(gè)真正的變革時(shí)代的開(kāi)端。
但是,有機遇就會(huì )有挑戰。AI 推斷作為采用經(jīng)訓練的機器學(xué)習算法開(kāi)展預測的過(guò)程,無(wú)論是部署在云端、邊緣還是終端,都要求在嚴格的功耗預算下提供優(yōu)異的處理性能。普遍的看法認為,僅憑 CPU 難以滿(mǎn)足這一要求,需要某種形式的計算加速才能更高效地處理 AI 推斷工作負載。
與此同時(shí),AI 算法正在快速演進(jìn)發(fā)展,且速度快于傳統芯片開(kāi)發(fā)周期的速度。如果使用 ASIC 等固定功能的芯片實(shí)現 AI 網(wǎng)絡(luò ),則可能因先進(jìn) AI 模型的高速創(chuàng )新而迅速過(guò)時(shí)。
整體應用加速
此外還有第三個(gè)挑戰,而這也是較少為人所知的一個(gè),其出現的原因在于 AI 推斷無(wú)法單獨部署。真正的 AI 部署通常需要非 AI 處理,無(wú)論是在 AI 功能之前還是之后。例如,圖像可能需要完成解壓縮和縮放后才能符合 AI 模型的數據輸入要求。這些傳統的處理功能必須運行在與 AI 功能相同的吞吐量下,同樣需要實(shí)現高性能與低功耗。與 AI 推斷實(shí)現方案類(lèi)似,非 AI 的預處理和后處理功能開(kāi)始需要某種形式的加速。
要構建真實(shí)應用,就需要高效地實(shí)現整體應用。在數據中心應用中,應用可能擁有數千個(gè)乃至數百萬(wàn)個(gè)并行實(shí)例。如果每個(gè)實(shí)例都能降低一定程度的功耗,總功耗將實(shí)現顯著(zhù)下降。
只有當整體應用能夠通過(guò)加速滿(mǎn)足性能目標,同時(shí)又能通過(guò)提高效率滿(mǎn)足功耗要求時(shí),解決方案才具備可行性。那么,我們該如何通過(guò)可行方式實(shí)現整體應用加速呢?
這里有三個(gè)關(guān)鍵因素:能夠構建定制數據路徑;使用單器件實(shí)現方案;能夠充分發(fā)揮最先進(jìn)的 AI 模型的優(yōu)勢并隨之實(shí)現快速演進(jìn)發(fā)展和改善。下面分別具體介紹這三個(gè)環(huán)節。
能夠構建定制數據路徑
大多數形式的 AI 推斷是在流數據上運行的。數據通常處于運動(dòng)狀態(tài),如視頻的一部分、正在處理的醫療影像或是正在分析的網(wǎng)絡(luò )流量。即使將數據存儲在磁盤(pán)上,也要從磁盤(pán)上讀取數據,然后通過(guò)“AI 應用”進(jìn)行傳輸。定制數據路徑為處理這類(lèi)數據流提供了最高效的方法。定制數據路徑讓?xiě)脭[脫了傳統的馮·諾依曼 CPU 架構的限制。在這種架構中,數據以小批量從存儲器讀出,經(jīng)過(guò)處理再寫(xiě)回處理器。相反,定制數據路徑將數據從一個(gè)處理引擎傳遞給下一個(gè)處理引擎,不僅時(shí)延低,而且性能水平合理。過(guò)低的處理性能無(wú)法滿(mǎn)足這種應用的要求。過(guò)高的處理性能則會(huì )降低效率,因存在閑置功能而浪費功耗或物理空間。定制數據路徑提供了絕佳平衡,為應用提供量身定制的實(shí)現方案。
單器件實(shí)現方案
一些解決方案非常適合 AI 推斷,但并不適合整體應用處理。GPU 等固定架構器件普遍不適合這類(lèi)用途。GPU 往往能提供很高的 TOP(每秒太次運算,一種常見(jiàn)的性能指標),但是 AI 推斷性能通常需要與預處理性能和后處理性能匹配。如果非 AI 組件不能高效地在同一個(gè) GPU 上實(shí)現,就需要多器件解決方案。由于需要在器件間傳遞數據,會(huì )浪費功耗,因此從功耗的角度來(lái)看極為低效和高成本。因此,一個(gè)能夠高效實(shí)現整體應用的單器件在實(shí)際 AI 推斷部署中擁有顯著(zhù)優(yōu)勢。
靈活適應最新的 AI 模型并隨之演進(jìn)
AI 的創(chuàng )新速度令人驚嘆。如今被視為先進(jìn)的技術(shù),很容易在半年后就宣告過(guò)時(shí)。使用較老模型的應用有喪失競爭力的風(fēng)險,所以,能夠快速實(shí)現最先進(jìn)的模型就極為關(guān)鍵。
那么,什么樣的技術(shù)既允許 AI 模型動(dòng)態(tài)更新,又能提供構建定制數據路徑的能力,從而在單個(gè)器件中加速 AI 和非 AI 處理呢?答案是——自適應計算平臺。
自適應計算平臺
自適應計算平臺構建在能在制造后動(dòng)態(tài)重配置的硬件上。這包括 FPGA 等經(jīng)過(guò)長(cháng)期檢驗的技術(shù),以及賽靈思 AI 引擎等最近的創(chuàng )新。賽靈思 Versal? 自適應計算加速平臺等單器件平臺便于構建定制數據路徑,為 AI 處理和非 AI 處理功能提速。此外,因為硬件可以快速重配置,所以它們也能快速高效地實(shí)現最新 AI 模型。自適應計算器件結合了兩方面的優(yōu)勢。它們既具備定制 ASIC 的效率優(yōu)勢,又避免了漫長(cháng)高成本的設計周期。
賽靈思 Versal AI Core 系列 VC1902
最優(yōu)秀的 AI 應用實(shí)現方案未必是速度最快的。它需要的是在效率最高的同時(shí)保持靈活性。它必須是量身定制的,能夠按需交付性能,不多不少。
總結
隨著(zhù) AI 推斷的應用日益普及,問(wèn)題不僅在于如何部署 AI 模型,也在于如何最高效地部署整體 AI 應用。在應用被復制數千次乃至數百萬(wàn)次時(shí),每個(gè)實(shí)例的少許節能也許能省下整個(gè)發(fā)電站所需的能源。如果將這種節省擴展到正在開(kāi)發(fā)的不計其數的新 AI 應用中,效果將十分明顯。毫無(wú)疑問(wèn),整體 AI 應用的高效加速應成為技術(shù)行業(yè)所有從業(yè)者的目標,而自適應計算平臺提供了極富競爭力的解決方案。
評論