AMD:嵌入式邊緣AI需要體現價(jià)值并便于部署
隨著(zhù)人工智能(AI)技術(shù)廣泛應用于各行各業(yè),從云到邊緣的解決方案逐漸成為信息技術(shù)領(lǐng)域新的熱點(diǎn)。嵌入式邊緣AI在當今的各種邊緣應用中能夠大幅提升作業(yè)人員的生產(chǎn)力,帶動(dòng)整個(gè)AI技術(shù)在各個(gè)領(lǐng)域的全面落地。邊緣AI的價(jià)值在于將計算和存儲資源移動(dòng)到網(wǎng)絡(luò )邊緣,縮短傳輸距離降低傳輸要求,大幅提升數據反饋的速度,降低了對系統云端計算能力的需求。邊緣處理數據無(wú)需傳輸到遠程服務(wù)器,從而大大減少了傳輸延遲,對于需要實(shí)時(shí)響應的應用場(chǎng)景至關(guān)重要。此外,嵌入式邊緣AI結構相對處理效率更高,通過(guò)優(yōu)化算法和硬件設計,可以大幅降低系統處理所需的功耗。目前的AI驅動(dòng)型嵌入式系統實(shí)現端到端加速需要采用多芯片方法,為用戶(hù)增加了很大的開(kāi)銷(xiāo)和設計復雜性。針對這一現狀,AMD工業(yè)、視覺(jué)、醫療與科學(xué)市場(chǎng)視覺(jué)業(yè)務(wù)主管Yingyu Xia認為,全面采用嵌入式邊緣AI 技術(shù)仍然存在障礙,包括技能人才短缺、AI系統的復雜性以及對失業(yè)的擔憂(yōu)。為了更廣泛地推廣此類(lèi)應用,不僅需要展示AI在各個(gè)應用任務(wù)中的價(jià)值,而且還需要確保其便于部署,作為擁有多種嵌入式處理器產(chǎn)品的廠(chǎng)商,這恰是AMD最突出的競爭優(yōu)勢所在。
本文引用地址:http://dyxdggzs.com/article/202405/458608.htm在邊緣智能的應用中,需要重點(diǎn)關(guān)注的就是不同處理器發(fā)揮各自的處理優(yōu)勢從而更好地提升邊緣智能系統的運行效率。為了支持嵌入式設備上的生成式AI模型,Yingyu Xia表示計算平臺需要確保高算力的同時(shí)具有高效率,采用處理器異構計算平臺以及一個(gè)編譯器,能夠高效地在應用處理器(PS)、圖形處理單元(GPU)、神經(jīng)處理單元(NPU)和現場(chǎng)可編程門(mén)陣列(FPGA)之間分配各種工作負載。此外,它們應該提供易于使用的軟件開(kāi)發(fā)工具套件(SDK),幫助嵌入式工程師將其模型無(wú)縫部署到硬件平臺上。NPU對于高效處理標準AI模型至關(guān)重要,有助于加速 AI 任務(wù)并最大限度降低功耗;與此同時(shí),PS和GPU對于處理尚未針對NPU進(jìn)行優(yōu)化的更高級別的模型也提供了必要支持;FPGA則有助于集成多種傳感器模態(tài),以利用多模態(tài)模型并確保傳感器同步。此外,FPGA可以被編程以建立定制、優(yōu)化的數據路徑,從而實(shí)現系統組件之間的有效數據傳輸。
圖1 2027 年營(yíng)收前 10 的嵌入式AI應用(Alexander Harrowell, Omdia, 2022)
針對各個(gè)處理器在邊緣AI 應用中的作用,AMD工業(yè)、視覺(jué)、醫療與科學(xué)市場(chǎng)機器人業(yè)務(wù)主管KVThanjavur Bhaaskar介紹,CPU一直以來(lái)都是功能強大的通用計算引擎,相對于許多其他計算平臺,在可提供支持的廣泛軟件生態(tài)系統方面具有優(yōu)勢。嵌入式處理器集成了用于渲染、可視化和顯示的CPU和圖形。隨著(zhù)邊緣智能的快速增長(cháng),近來(lái)的一種趨勢是CPU除了通用計算和圖形功能外,還具有專(zhuān)用的AI計算引擎。迄今為止,設計人員必須在設計中引入加速器才能實(shí)現高性能的AI推理。將專(zhuān)用的AI計算引擎引入到CPU中,可提供靈活的架構選擇,減小占板面積并提高能效。就新應用而言,邊緣智能已經(jīng)無(wú)處不在,所以可以想象在以前只有CPU的地方現在都具備了AI功能,比如具有AI路徑規劃的機器人控制器、具有診斷或感興趣區域功能的醫學(xué)成像等。正在出現的主要設計要求是在滿(mǎn)足整體解決方案需求的情況下選擇正確的引擎進(jìn)行正確的任務(wù),因為計算工作負載的多樣性、處理器以有效處理它們的方式、以及系統中這種處理能力的可用性都發(fā)生了顯著(zhù)變化。在為傳統CPU增加AI功能之外,異構處理架構的出現能夠更好的去提升邊緣AI在功耗和效率方面的表現。KV Thanjavur Bhaaskar強調,處理器的選擇取決于特定的系統級別,一個(gè)解決方案可能是選擇適合特定任務(wù)的正確引擎,因為這將為解決系統中的特定計算任務(wù)提供最節能的方式。AMD 提供的器件結合了不同技術(shù),包括 FPGA、處理子系統(包括 Arm 和RISC-V)、基于 x86 的 CPU、GPU、AI 引擎,構成了可擴展性很強的產(chǎn)品系列,從成本優(yōu)化的嵌入式器件一直到針對數據中心市場(chǎng)的高端器件。
Omdia預測了到2027年預計將產(chǎn)生最高收入的前10個(gè)嵌入式AI應用(如圖1 所示),這些應用通常展示了上述因素中的兩個(gè)或更多,呈現出業(yè)界采用嵌入式AI的目標領(lǐng)域。以工廠(chǎng)自動(dòng)化為例,工廠(chǎng)中的拾取和放置機器人,需要實(shí)現對目標對象的毫米級準確識別并最小化對機械臂的干擾,這需要結合 3D 視覺(jué)、點(diǎn)云處理、嵌入式AI和傳感器致動(dòng)器融合。最大限度降低時(shí)延對于保持高生產(chǎn)力至關(guān)重要,也有助于確保產(chǎn)量和整體效率的提升。這方面許多人所熟悉的另一個(gè)例子是智能結賬系統,不僅可通過(guò)實(shí)時(shí)監控掃描商品來(lái)增強結賬體驗,而且還能檢測購物者的不當行為,例如將較便宜的商品(如香蕉)替換為較昂貴的商品(如牛排)。這一功能不僅鼓勵顧客使用自助結賬,減少零售商的擔憂(yōu),還解決了不斷上升的勞動(dòng)力成本問(wèn)題。此外,還可以參考智能交通攝像頭,其需要針對速度高達 200 公里/ 小時(shí)的車(chē)輛采集圖像信息。要實(shí)現這一點(diǎn),需要集成各種傳感器。然而,全天候持續傳輸視頻將產(chǎn)生極高的成本。
AMD工業(yè)、視覺(jué)、醫療與科學(xué)市場(chǎng)視覺(jué)業(yè)務(wù)主管Yingyu Xia
隨著(zhù)AI模型及其參數的復雜性日益提高,對系統內部更有效的數據傳輸機制的需求也在增長(cháng)。統一AI模型是最突出的潛在發(fā)展趨勢。與為同一背景下的各種任務(wù)管理多個(gè)專(zhuān)門(mén)的AI模型不同,統一模型可用于處理多種視覺(jué)任務(wù)。這種方法在嵌入式邊緣中提供了更有效地資源利用的可能性,尤其是在分布式 AI 架構中更為明顯。預計在這個(gè)領(lǐng)域會(huì )進(jìn)行進(jìn)一步的研究,以提高統一模型的準確性。Yingyu Xia特別提到了當前一個(gè)值得關(guān)注的趨勢,即業(yè)界出現了能夠在有限標記數據下進(jìn)行有效泛化的模型。這一策略在數據采集不便和需要頻繁數據訓練的場(chǎng)景中具有極大的價(jià)值。由于僅需要最少量的數據進(jìn)行重新訓練,這一趨勢降低了所需的技術(shù)專(zhuān)長(cháng),并節省了AI訓練時(shí)間。此外,大型語(yǔ)言模型(LLM)的普及使得與AI的交互更類(lèi)似于與人類(lèi)對話(huà)。只需提出一個(gè)問(wèn)題,AI就能夠理解背景語(yǔ)義并像咨詢(xún)專(zhuān)家一樣作出回應。目前一種趨勢是在嵌入式邊緣部署的AI模型中提升對視覺(jué)場(chǎng)景的理解。這一發(fā)展有助于作業(yè)人員更清晰地理解視覺(jué)場(chǎng)景,在一次視頻搜索的調查過(guò)程中,它能夠以自然的人類(lèi)語(yǔ)言提供洞察和建議。
除了評估AI引擎的能力外,Yingyu Xia認為嵌入式AI系統還在高速和大量數據涌入的實(shí)時(shí)環(huán)境中運行。確保實(shí)時(shí)操作需要硬件平臺具備高效的數據同步和前后處理流水線(xiàn),以有效地管理數據流。在選擇嵌入式平臺時(shí),不僅要考慮AI引擎的效率,還要考慮它與其他關(guān)鍵部分的兼容性。AI引擎只是嵌入式系統的一個(gè)組成部分,為了實(shí)現最佳功能,必須通過(guò)其它重要因素進(jìn)行補充,理想的平臺應該是根據嵌入式用例需求可以滿(mǎn)足下列大部分要求的平臺。
AMD工業(yè)、視覺(jué)、醫療與科學(xué)市場(chǎng)機器人業(yè)務(wù)主管KV Thanjavur Bhaaskar
面向邊緣AI應用市場(chǎng),AMD最近發(fā)布了加速嵌入式邊緣AI開(kāi)發(fā)的Embedded+架構,該架構將AMDRyzen(銳龍)嵌入式處理器與AMD Versal AI Edge自適應SoC集成在一塊板卡上。KV Thanjavur Bhaaskar強調,自適應計算在確定性、低時(shí)延處理方面表現出色,而AI引擎則能夠提升高每瓦性能推理。在這種異構處理器架構中,Ryzen嵌入式處理器提供了Zen+ x86核心,并且具備廣泛的軟件生態(tài)系統支持,Radeon顯卡用于渲染和顯示功能。Versal AI Edge自適應SoC提供了基于A(yíng)rm Cortex-A72內核處理器的子系統用于應用處理,R5-F用于實(shí)時(shí)處理,FPGA 用于低時(shí)延和確定性,AI引擎用于A(yíng)I推理,最重要的是可編程I/O,支持用戶(hù)將各種傳感器直接連接到平臺。在自動(dòng)化系統中,傳感器數據的價(jià)值會(huì )隨時(shí)間推移而遞減,而這些數據必須根據盡可能最新的信息運行,才能實(shí)現最低時(shí)延和確定性響應。在工業(yè)和醫療應用中許多決策需要在幾毫秒內做出,這就是嵌入式邊緣AI 最適合的方向。Embedded+能最大限度發(fā)揮合作伙伴和客戶(hù)數據價(jià)值,其高能效和高性能算力使合作伙伴與客戶(hù)能夠專(zhuān)注于滿(mǎn)足客戶(hù)和市場(chǎng)需求。
AMD Embedded+架構將傳統的嵌入式PC轉變?yōu)閮?yōu)化的工業(yè)和醫療PC。低時(shí)延處理和高每瓦性能推理的結合可為關(guān)鍵任務(wù)實(shí)現高性能,包括將自適應計算與靈活的I/O、用于A(yíng)I推理的AI引擎以及AMD Radeon顯卡實(shí)時(shí)集成到單個(gè)解決方案中,發(fā)揮每項技術(shù)的最大優(yōu)勢。Embedded+架構作為一種可擴展的方法,可以通過(guò)AMD的任何器件組合進(jìn)行更新,就在近期,AMD推出了具有專(zhuān)用AI引擎的銳龍8000G 系列CPU和第二代Versal AI Edge系列,這些產(chǎn)品可以用于新一代基于Embedded+的主板,以應對邊緣智能不斷變化的需求。KV Thanjavur Bhaaskar特別提到AMD 在邊緣和云計算領(lǐng)域擁有廣泛的產(chǎn)品組合。AMD不僅將AI功能添加到最新發(fā)布的相關(guān)器件中,同時(shí)還將提高已有器件的AI能力,考慮到功率效率與成本方面因素,預計這種趨勢將持續下去。
AMD嵌入式行業(yè)解決方案可為工業(yè)和商業(yè)應用打造高性能、高性?xún)r(jià)比的系統。憑借一系列靈活、可擴展的處理器,AMD為客戶(hù)帶來(lái)更出色的計算性能、先進(jìn)安全性和各種連接選項。AMD嵌入式行業(yè)解決方案可滿(mǎn)足游戲、醫療、運輸、自動(dòng)化等工業(yè)和商業(yè)應用的苛刻需求。在針對嵌入式環(huán)境中實(shí)現 AI 的分布式架構中,Yingyu Xia總結的關(guān)鍵是考慮嵌入式邊緣設備的限制性資源、功耗、實(shí)時(shí)要求和安全性等因素??紤]到每個(gè)AI參數需要4 字節(32 位)的數據,部署原始大小的32位浮點(diǎn)模型大多是不可行的。例如,如果有 1.7 萬(wàn)億
個(gè)參數,嵌入式設備上的存儲需求將達到1.7*10^12*4=6.8 TB。因此,采用 BFLOAT16、FLOAT16、INT8等新穎的數據格式以最小化所需的內存占用是至關(guān)重要的。通常,量化器可以幫助將來(lái)自浮點(diǎn) 32 模型的數據精度降低到量化模型。此外,可以利用 AI分析工具來(lái)識別導致最重要瓶頸的層,這有助于嵌入式 AI工程師在邊緣優(yōu)化其模型。而且,關(guān)鍵在于需要開(kāi)發(fā)特定領(lǐng)域的模型以簡(jiǎn)化模型復雜性,從而減少模型層數,使其更容易部署到嵌入式 AI模型中。
作為一家可以同時(shí)提供x86、GPU、FPGA和自適應SoC技術(shù)的行業(yè)領(lǐng)導者,AMD的嵌入式邊緣AI技術(shù)聚焦在汽車(chē)、工業(yè)、智能家居和智慧城市以及網(wǎng)絡(luò )與存儲等應用,幫助客戶(hù)快速構建面向物聯(lián)網(wǎng)網(wǎng)關(guān)、邊緣基礎設施、迷你電腦、瘦客戶(hù)端等智能邊緣應用的經(jīng)濟高效的產(chǎn)品和解決方案。
(本文來(lái)源于《EEPW》2024.5)
評論