保持精度又縮小AI模型,英特爾開(kāi)發(fā)新的訓練技術(shù)
一般來(lái)說(shuō),人工智能模型的大小與它們的訓練時(shí)間有關(guān),因此較大的模型需要更多的時(shí)間來(lái)訓練,隨后需要更多的計算。優(yōu)化數學(xué)函數(或神經(jīng)元)之間的連接是有可能的,通過(guò)一個(gè)稱(chēng)為修剪的過(guò)程,它在不影響準確性的情況下減少了它們的整體大小。但是修剪要等到訓練后才能進(jìn)行。
本文引用地址:http://dyxdggzs.com/article/201906/401535.htm這就是為什么英特爾的研究人員設計了一種從相反的方向進(jìn)行訓練的技術(shù),從一個(gè)緊湊的模型開(kāi)始,在培訓期間根據數據修改結構。他們聲稱(chēng),與從一個(gè)大模型開(kāi)始,然后進(jìn)行壓縮相比,它具有更強的可伸縮性和計算效率,因為訓練直接在緊湊模型上進(jìn)行。
作為背景,大多數人工智能系統的核心神經(jīng)網(wǎng)絡(luò )由神經(jīng)元組成,神經(jīng)元呈層狀排列,并將信號傳遞給其他神經(jīng)元。這些信號從一層傳遞到另一層,通過(guò)調整每個(gè)連接的突觸強度(權重)來(lái)慢慢地“調整”網(wǎng)絡(luò )。隨著(zhù)時(shí)間的推移,該網(wǎng)絡(luò )從數據集中提取特征,并識別跨樣本趨勢,最終學(xué)會(huì )做出預測。
神經(jīng)網(wǎng)絡(luò )不會(huì )攝取原始圖像、視頻、音頻或文本。相反,來(lái)自訓練語(yǔ)料的樣本被代數地轉換成多維數組,如標量(單個(gè)數字)、向量(標量的有序數組)和矩陣(標量排列成一個(gè)或多個(gè)列和一個(gè)或多個(gè)行)。封裝標量、向量和矩陣的第四種實(shí)體類(lèi)型——張量增加了對有效線(xiàn)性變換(或關(guān)系)的描述。
該團隊的計劃在一篇新發(fā)表的論文中進(jìn)行了描述,該論文已被接受為2019年機器學(xué)習國際會(huì )議的口頭陳述,訓練一種稱(chēng)為深度卷積神經(jīng)網(wǎng)絡(luò )(CNN)的神經(jīng)網(wǎng)絡(luò ),其中大部分層具有稀疏權張量,或者張量大部分為零。所有這些張量都是在相同的稀疏性(零點(diǎn)的百分比)級別初始化的,而非稀疏參數(具有一系列值之一的函數參數)用于大多數其他層。
在整個(gè)訓練過(guò)程中,當參數在張量?jì)炔炕蚩鐝埩恳苿?dòng)時(shí),網(wǎng)絡(luò )中的非零參數總數保持不變,每幾百次訓練迭代進(jìn)行一次,分兩個(gè)階段進(jìn)行:修剪階段之后緊接著(zhù)是增長(cháng)階段。一種稱(chēng)為基于大小的修剪的類(lèi)型用于刪除具有最小權值的鏈接,并且在訓練期間跨層重新分配參數。
為了解決性能問(wèn)題,研究人員將神經(jīng)網(wǎng)絡(luò )訓練兩倍epochs,并在加拿大高級研究所(Canadian Institute for Advanced Research)的CIFAR10圖像數據集和斯坦福大學(xué)(Stanford)的ImageNet上測試了其中的兩個(gè)epochs——WRN-28-2和ResNet-50。
他們報告說(shuō),在模型大小相同的情況下,該方法比靜態(tài)方法獲得了更好的精度,同時(shí)所需的訓練也大大減少,而且它比以前的動(dòng)態(tài)方法產(chǎn)生了更好的精度。
該論文的主要作者之一Hesham Mostafa寫(xiě)道:“實(shí)驗表明,在訓練過(guò)程中探索網(wǎng)絡(luò )結構對于達到最佳準確度至關(guān)重要。如果構造一個(gè)靜態(tài)稀疏網(wǎng)絡(luò ),復制動(dòng)態(tài)參數化方案發(fā)現的稀疏網(wǎng)絡(luò )的最終結構,那么這個(gè)靜態(tài)網(wǎng)絡(luò )將無(wú)法訓練到相同的精度?!?/p>
評論