Google的設備上文本分類(lèi)AI的準確率達到86.7%
深度神經(jīng)網(wǎng)絡(luò ) - 模仿人類(lèi)大腦中神經(jīng)元行為的數學(xué)函數層 - 是最先進(jìn)的機器翻譯和異議識別系統的核心。它們有助于將一種語(yǔ)言翻譯成另一種語(yǔ)言并從名片中提取地址。問(wèn)題是,它們經(jīng)常受到智能手機,可穿戴設備和其他移動(dòng)設備的硬件限制 - 特別是在內存和計算方面。
本文引用地址:http://dyxdggzs.com/article/201811/393953.htm不過(guò),對于高性能的離線(xiàn)算法還有希望。在本周于比利時(shí)布魯塞爾舉行的自然語(yǔ)言處理經(jīng)驗方法會(huì )議上發(fā)表的一篇論文中,谷歌研究人員描述了離線(xiàn)的設備上AI系統 - 自我管理神經(jīng)網(wǎng)絡(luò )(SGNN) - 它們實(shí)現了空中狀態(tài)導致特定的對話(huà)框相關(guān)任務(wù)。
“在設備上開(kāi)發(fā)和部署深度神經(jīng)網(wǎng)絡(luò )模型的主要挑戰是:(1)微小的內存占用,(2)推理延遲和(3)與高性能計算系統(如CPU,GPU)相比顯著(zhù)低的計算容量和云上的TPU,“該團隊寫(xiě)道?!癧SGGNs]允許我們在設備上以非??斓乃俣扔嬎銈魅胛谋镜耐队?,因為我們不需要存儲傳入的文本和字嵌入?!?/p>
正如該論文的作者所解釋的那樣,有許多方法可以設計一個(gè)輕量級的設備上文本分類(lèi)模型,比如將模型與圖形學(xué)習相結合,這就是谷歌智能回復中使用的模型, 并自動(dòng)生成簡(jiǎn)短的電子郵件回復。但大多數要么不能很好地擴展,要么導致大型模型。
相比之下,SGGN采用了局部敏感散列(LSH)的修改版本,這種技術(shù)通過(guò)散列或映射輸入項來(lái)減少數據中的維數,以便類(lèi)似的項以高概率映射到相同的“桶”。顧名思義,它是自我控制的 - 它可以通過(guò)動(dòng)態(tài)地將輸入轉換為具有投影函數的低維表示來(lái)學(xué)習模型而無(wú)需初始化,加載或存儲任何特征。此外,在對數據進(jìn)行訓練時(shí),它學(xué)會(huì )選擇并應用對給定任務(wù)更具預測性的特定操作。
該團隊寫(xiě)道,這減少了數百萬(wàn)個(gè)獨特單詞的輸入維度,縮短了固定長(cháng)度的短序列,并且無(wú)需存儲文本和單詞嵌入(代表單詞和短語(yǔ)的向量)。在實(shí)驗中,與存儲要求超過(guò)數十萬(wàn)維的字嵌入方法相比,SGGN使用固定的1120維向量,而不管輸入數據的詞匯表或特征大小。
研究人員使用兩個(gè)對話(huà)行為基準數據集來(lái)評估SGGN:交換機對話(huà)法案語(yǔ)料庫(SWDA),其中包含兩個(gè)發(fā)言人和42個(gè)對話(huà)行為,以及ICSI會(huì )議記錄器對話(huà)法案語(yǔ)料庫,一個(gè)多方會(huì )議的對話(huà)語(yǔ)料庫。
沒(méi)有預處理,標記,解析或預訓練嵌入,SGGN的表現優(yōu)于基線(xiàn)AI系統12%至35%。通過(guò)SWDA和MRDA數據集,它實(shí)現了83.1%的準確率和86.7%的準確度 - 高于基準 - 針對尖端卷積神經(jīng)網(wǎng)絡(luò )和遞歸神經(jīng)網(wǎng)絡(luò ) - 并且日本的準確度達到73%,接近最佳性能系統。
在未來(lái)的工作中,研究人員計劃調查SGGN在其他自然語(yǔ)言任務(wù)中的使用。
“我們的研究還表明,與更復雜的神經(jīng)網(wǎng)絡(luò )架構相比,所提出的方法對于這種自然語(yǔ)言任務(wù)非常有效,例如深CNN和RNN變體,”研究人員寫(xiě)道?!拔覀兿嘈艍嚎s技術(shù),如與非線(xiàn)性函數結合的局部敏感投影,可有效捕獲對文本分類(lèi)應用有用的低維語(yǔ)義文本表示?!?/p>
近年來(lái),邊緣人工智能系統取得了突飛猛進(jìn)的發(fā)展。
9月,都柏林創(chuàng )業(yè)公司 Voysis 宣布推出基于WaveNet的技術(shù),該技術(shù)不僅可以在線(xiàn)下運行,還可以在智能手機和其他帶有移動(dòng)處理器的設備上運行。8月,Google的研究人員開(kāi)發(fā)了具有記錄面部識別和物體檢測速度的離線(xiàn)AI。5月份,高通聲稱(chēng)其設備上的語(yǔ)音識別系統準確率達到了95%。
評論