<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > NeurIPS 2022 | 一窺人工智能大一統與理論研究的最新進(jìn)展(2)

NeurIPS 2022 | 一窺人工智能大一統與理論研究的最新進(jìn)展(2)

發(fā)布人:MSRAsia 時(shí)間:2022-11-21 來(lái)源:工程師 發(fā)布文章

人工智能理論

Theory



05

組合多臂老虎機在隨機觸發(fā)臂或獨立臂場(chǎng)景下與最大觸發(fā)臂數量無(wú)關(guān)的損失分析


圖片


論文鏈接:

https://www.microsoft.com/en-us/research/publication/batch-size-independent-regret-bounds-for-combinatorial-semi-bandits-with-probabilistically-triggered-arms-or-independent-arms/


組合多臂老虎機(combinatorial multi-armed bandit)將傳統的組合優(yōu)化和在線(xiàn)學(xué)習相結合,通過(guò)在線(xiàn)反饋機制不斷改進(jìn)模型的優(yōu)化效果。其應用涵蓋推薦系統、在線(xiàn)廣告、社交網(wǎng)絡(luò )、無(wú)線(xiàn)網(wǎng)絡(luò )等多個(gè)領(lǐng)域。在本文中,研究員們通過(guò)方差分析的方法降低了每個(gè)時(shí)刻可能被激活的臂數 K 對算法所承受損失的影響。


值得注意的是,研究員們找到了一種全新的光滑條件,稱(chēng)為概率激活方差調節(TPVM)條件。首先,TPVM 被證明和既有的光滑條件在多數實(shí)際應用場(chǎng)景下(如在線(xiàn)廣告、社交網(wǎng)絡(luò )等)同樣成立。其次,通過(guò) TPVM 條件,研究員們得以對帶概率和無(wú)概率激活臂的模型分別設計基于方差分析的新型算法,即 BCUCB-T 和 SESCB。在帶概率激活臂的模型下,BCUCB-T 算法可以將 K 對損失的影響從此前的 O(K) 降低為 O(log^2 K)或 O(log K)。而在無(wú)概率激活臂的模型下,SESCB 則將損失上界由此前的 O(log K)降低至 O(1)。最后,仿真實(shí)驗結果表明,研究員們所提出的算法在很多實(shí)際應用場(chǎng)景中都能超越現有算法的效果。


圖片

圖5:帶概率激活臂的 CMAB 模型下本文結果與此前結果對比圖


06

動(dòng)量會(huì )改變優(yōu)化器在可分數據上的隱式正則嗎? 


圖片


論文鏈接:

https://www.microsoft.com/en-us/research/publication/does-momentum-change-the-implicit-regularization-on-separable-data/


為提升訓練速度,深度學(xué)習中的優(yōu)化器廣泛采用動(dòng)量加速技術(shù)。然而,目前學(xué)界仍未能厘清動(dòng)量是如何影響深度學(xué)習模型的泛化能力的。本文從動(dòng)量加速技術(shù)的隱式正則效應切入,探究了其對泛化能力的影響。尤其是,本文證明了在對線(xiàn)性可分數據上,帶動(dòng)量的梯度下降法收斂到的點(diǎn)是 L^2 最大間隔問(wèn)題的解 (L^2 max-margin solution),與不使用動(dòng)量的梯度下降法相同。這意味著(zhù)帶動(dòng)量的梯度下降法將收斂到一個(gè)低復雜度的模型,從而保證了模型的泛化性質(zhì)。


本文更進(jìn)一步分析了動(dòng)量梯度下降法帶隨機性和帶自適應學(xué)習率的變種(即隨機動(dòng)量梯度下降法和確定性 Adam 算法),證明了它們也會(huì )收斂到 L^2 最大間隔問(wèn)題的解。這首次證明了隨機動(dòng)量梯度下降法在仿射噪聲假設下,將收斂到駐點(diǎn)。這一假設相比現有研究中有界方差噪聲的假設,適用范圍更為廣泛。與此同時(shí),多個(gè)場(chǎng)景的數值實(shí)驗驗證了該理論結果,請查看論文原文了解更多細節。


圖片

圖6:論文《動(dòng)量會(huì )改變優(yōu)化器在可分數據上的隱式正則嗎?》的結果展示圖


07

穩定的神經(jīng)元響應會(huì )提升模型泛化性能


圖片


論文鏈接:

https://www.microsoft.com/en-us/research/publication/neuron-with-steady-response-leads-to-better-generalization/


如何提高模型的泛化性能,一直是機器學(xué)習和深度學(xué)習的核心問(wèn)題之一。隨著(zhù)深度學(xué)習的不斷發(fā)展,各種各樣的網(wǎng)絡(luò )結構被應用在多種不同的任務(wù)中。能否探尋到統攝不同任務(wù)和網(wǎng)格結構的本質(zhì)共性來(lái)提高多種網(wǎng)絡(luò )的泛化性能,是本文的研究切入點(diǎn)。


研究員們從神經(jīng)元級別的細粒度出發(fā),仔細分析了單個(gè)神經(jīng)元在神經(jīng)網(wǎng)絡(luò )訓練和測試中的響應特性,發(fā)現提升神經(jīng)元對同類(lèi)輸入樣本響應的穩定性能夠有效地提高神經(jīng)網(wǎng)絡(luò )的泛化性能。據此,研究員們設計出了一種通用的正則項,用于控制神經(jīng)元在激活狀態(tài)下響應的類(lèi)內方差,并進(jìn)一步分析了將此正則項應用在不同層神經(jīng)元所帶來(lái)的效果差異。該正則項簡(jiǎn)單高效,能在不同領(lǐng)域的多個(gè)數據集(ImageNet, CIFAR10, PubMed, WikiCS)以及多種網(wǎng)絡(luò )結構 (MLP, CNN, GNN)上普遍地提升模型的泛化性能。


圖片

圖7:MLP 模型在 MNIST 數據集上的訓練過(guò)程圖。其中,紅線(xiàn)表示原始模型的訓練曲線(xiàn),藍線(xiàn)是加入全新正則化技術(shù)后的新模型訓練曲線(xiàn)。最右的圖片顯示,在原始模型中,神經(jīng)元對同類(lèi)樣本響應的方差會(huì )隨著(zhù)訓練不斷增大,而研究員們所提出的正則化技術(shù)能夠大幅降低神經(jīng)元響應的類(lèi)內方差。相應地,原始模型的訓練損失雖然比新模型要低(見(jiàn)第二幅圖),但新模型在測試集上的識別準確率卻比原始模型有顯著(zhù)提高(見(jiàn)第一幅圖),因此研究員們所提出的正則化技術(shù)有效地提高了模型的泛化性能。


08

等級強化學(xué)習:悲觀(guān)面對不確定性與“常數regret”


圖片


論文鏈接:

https://www.microsoft.com/en-us/research/publication/tiered-reinforcement-learning-pessimism-in-the-face-of-uncertainty-and-constant-regret/


強化學(xué)習(RL)在許多用戶(hù)交互型應用中都取得了成功,比如醫療領(lǐng)域、推薦系統等。其中,病人/客戶(hù)扮演的是環(huán)境的角色,治療方案/推薦算法則是強化學(xué)習中的決策,其具體做法就是部署決策、收集數據、并用強化學(xué)習算法提升直到接近最優(yōu)。


由于訓練過(guò)程中算法不可避免地會(huì )給用戶(hù)提供錯誤的決策,但不同的用戶(hù)對于承擔或接收決策錯誤所造成的損失的能力也不同,故需具體情況具體分析。然而,現有框架忽略了決策錯誤對個(gè)體用戶(hù)影響的特殊性。因此,研究員們提出了“等級強化學(xué)習(Tiered RL)”的新框架,其根據風(fēng)險的承受能力對用戶(hù)進(jìn)行等級區分,承受能力越弱等級越高。


在對 gap 不做假設的情況下,研究員們證明了與 online setting 相同的 O(√(SAH^3 K)) 的極小化極大下界(minimax-lower bound),揭示了一般情形下這個(gè)問(wèn)題的困難度。在引入最小 gap 假設的 gap-dependent setting 中,研究員們設計了新的算法,在保證低等級用戶(hù)的“regret”仍然是最優(yōu)的前提下,高等級用戶(hù)承擔的“regret 與交互次數 K 無(wú)關(guān),打破了普通 online learning 的 O(log K) 下界,從而證明了新框架和算法的優(yōu)越性。


圖片

圖8:等級強化學(xué)習(Tiered RL)框架圖



*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。

fpga相關(guān)文章:fpga是什么


網(wǎng)線(xiàn)測試儀相關(guān)文章:網(wǎng)線(xiàn)測試儀原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>