探索 AI 新未來(lái),移動(dòng)端 CPU 運行生成式 AI 實(shí)例解析
作者:Arm 終端事業(yè)部產(chǎn)品管理總監 Ronan Naughton
本文引用地址:http://dyxdggzs.com/article/202410/463732.htm2022 年,首個(gè)云端文生圖的生成式人工智能 (AI) 用例誕生。通過(guò)“一張宇航員騎馬的照片”文字提示,生成了一張 AI 圖像,雖然圖像還存在瑕疵,但展示了生成式 AI 令人驚嘆的能力和潛力。
當時(shí)我并未在云端運行這個(gè)用例,而是在想: “這很棒,但它能在移動(dòng)設備上實(shí)現嗎?”
生成式 AI 是當今智能手機體驗的一部分
時(shí)至今日,答案已顯而易見(jiàn)。事實(shí)上,許多生成式 AI 工作負載,如圖像生成和文本摘要,已無(wú)縫融入現代智能手機體驗之中,且這些任務(wù)均能在端側進(jìn)行高效處理。這得益于旗艦 AI 智能手機卓越的計算能力,以及生成式 AI 所依賴(lài)的大語(yǔ)言模型 (LLM) 不斷向更小、更高效的方向發(fā)展。這些趨勢將繼續演進(jìn),意味著(zhù)在不久的將來(lái),生成式 AI 將成為移動(dòng)端應用的標配。
AI 工作負載始于 CPU
正如我們之前談到的 ,移動(dòng)端 AI 始于 CPU。它為全球開(kāi)發(fā)者提供了軟件靈活性和可編程性。此外,地球上每一臺數字消費電子設備都搭載 CPU,CPU 的無(wú)處不在意味著(zhù)開(kāi)發(fā)者創(chuàng )建應用時(shí),可以“一次編寫(xiě),即可隨處部署”,確保覆蓋更為廣泛的用戶(hù)。
今年早些時(shí)候,我們進(jìn)行了 聊天機器人演示 ,它能作為科學(xué)和編程虛擬助教,并在移動(dòng)端 CPU 上流暢運行。此次演示的成功,表明我們開(kāi)始探索在 Arm CPU 上運行更多端側生成式 AI 用例,以更好地滿(mǎn)足智能手機用戶(hù)的日常使用需求。由此,我們創(chuàng )建了三款新的演示,包括 群聊總結 、 語(yǔ)音留言總結 和 實(shí)時(shí)語(yǔ)音助手 。它們和聊天機器人演示一樣,完全在端側處理和運行生成式 AI 工作負載,相比將數據發(fā)送到云端處理,這能提供更好的隱私性、降低延遲,并具備成本優(yōu)勢。
新的生成式 AI 演示
對我個(gè)人而言,群聊總結和語(yǔ)音留言總結在日常生活中非常實(shí)用。和大多數智能手機用戶(hù)一樣,我總會(huì )收到親朋好友的各種消息和語(yǔ)音,用生成式 AI 總結聊天內容很有幫助。
群聊總結演示可以針對包含多個(gè)參與者的群聊消息快速提煉要點(diǎn),并以易于理解的格式呈現。除群聊消息總結之外,該功能還適用于其他場(chǎng)景,例如電子郵件內容總結。更令人稱(chēng)道的是,該用例也支持多模態(tài),甚至可以在總結中巧妙融入圖片信息。
語(yǔ)音留言總結演示可以展示 LLM 和語(yǔ)音轉文本模型如何通過(guò)協(xié)同工作總結和轉錄用戶(hù)收到的語(yǔ)音留言。 先由模型將語(yǔ)音留言轉換為文本,再由 LLM 加以總結。 對我個(gè)人而言,這真的節省了大量時(shí)間!
和之前的聊天機器人演示一樣,實(shí)時(shí)語(yǔ)音助手演示的創(chuàng )新亮點(diǎn)在于,它完全可以在飛行模式下獨立運行,充分展示了 Arm CPU 在端側處理生成式 AI 工作負載的強大能力。
該演示先使用 whisper.cpp 自動(dòng)識別語(yǔ)音,再進(jìn)入 LLM 模塊,使用 Google AI Edge 的 MediaPipe 運行 Gemma 2B 模型。 此外,也可選擇 Llama 3 模型。 即使使用 30 億參數模型,也能實(shí)現實(shí)時(shí)對話(huà),聲音逼真,且能感知語(yǔ)境、進(jìn)行多輪對話(huà)。
為了顯著(zhù)提升性能,我們在用于語(yǔ)音識別的 whisper 模塊和用于生成響應的 LLM 模塊中都集成了 Arm KleidiAI ——一組專(zhuān)為生成式 AI 工作負載而高度優(yōu)化的AI軟件內核,能夠顯著(zhù)提升性能表現。該用例還可用于汽車(chē)應用,駕駛員無(wú)需手動(dòng)操作,僅憑語(yǔ)音指令即可與設備互動(dòng),例如在行車(chē)途中詢(xún)問(wèn)導航方向,或與游戲角色互動(dòng)對話(huà),極大地提升了駕駛體驗。
在以上三種演示中,我們都使用了旗艦級AI 智能手機,包括 搭載 MediaTek 天璣 9300 芯片的 vivo X100 、搭載 MediaTek 天璣 9200+ 芯片的紅米 K60 至尊版 ,以及搭載 Google Tensor G3 芯片的 Google Pixel 8 和 Pixel 8 Pro,這些手機的芯片組均采用了 Armv9 CPU 技術(shù),該技術(shù)融入了諸如 SVE2 等全新架構特性,旨在大幅提升 AI 性能。
未來(lái),基于 Arm CPU 打造的旗艦 AI 智能手機將利用 可伸縮矩陣擴展 (SME) 架構特性,加速 AI 工作負載,并為 Arm CPU 上運行的 AI 應用提高性能、能效和靈活性。
展望未來(lái)
盡管生成式 AI 已經(jīng)展現了諸多潛力,但其未來(lái)的發(fā)展前景將更加令人期待。事實(shí)上,我認為我們在端側生成式 AI 領(lǐng)域,尤其是在圖像和視頻生成方面,還僅僅處于初步探索階段。
近期,OpenAI 展示了由文本生成視頻,Luna Labs 演示了由圖像生成視頻。雖然兩種生成式 AI 工作負載都在云端處理,但根據當前的趨勢發(fā)展,預計在未來(lái)兩年內,這些工作負載就有可能在移動(dòng)端CPU上得以實(shí)現,就像剛才提到的騎馬的宇航員用例一樣!
Arm 平臺是端側生成式 AI 的基石
生成式 AI 陸續實(shí)現了各種不同的用例和工作負載,不斷鞏固著(zhù)智能手機在個(gè)人和專(zhuān)業(yè)計算中的核心地位。這讓我們更加期待生成式 AI 在移動(dòng)領(lǐng)域的發(fā)展。
全球 99% 的智能手機和業(yè)界領(lǐng)先的移動(dòng)生態(tài)系統都采用了普遍的 Arm CPU 技術(shù),Arm 也將通過(guò)持續的技術(shù)賦能,實(shí)現這些令人贊嘆的可能性。
我們將持續優(yōu)化 Arm CPU,為其增加更多功能和架構特性,同時(shí)通過(guò) Arm Kleidi 為開(kāi)發(fā)者釋放更多 AI 性能。作為引領(lǐng)未來(lái) AI 發(fā)展的移動(dòng)平臺,Arm 將持續推動(dòng)該領(lǐng)域的革新與進(jìn)步。
評論