<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > 深度學(xué)習被「神化」!如何「客觀(guān)」看待深度學(xué)習?

深度學(xué)習被「神化」!如何「客觀(guān)」看待深度學(xué)習?

作者: 時(shí)間:2017-07-11 來(lái)源:網(wǎng)絡(luò ) 收藏
編者按:深度學(xué)習隨著(zhù)AlphaGo大勝李世石之后被“神話(huà)”,很多人認為深度學(xué)習就是挑戰人類(lèi)智力的“神器”??墒?,深度學(xué)習真的如他們想象的那般“戰無(wú)不勝”嗎?

  本文編譯自hyperparameter.space,作者是Pablo Cordero,就讀于加利福尼亞大學(xué)圣克魯斯校區,主攻方向為細胞生物學(xué)和再生醫學(xué)背景下的應用機器學(xué)習研究。閱讀此文后,你便能夠從深層理解,為什么其實(shí)并不像普通百姓想象的那般“神”了,甚至,你還會(huì )發(fā)現它有時(shí)還有些“笨”。

本文引用地址:http://dyxdggzs.com/article/201707/361572.htm

  我知道以一種較為消極的態(tài)度來(lái)作為博客的開(kāi)頭是很奇怪的方式,但是在過(guò)去幾天里有一波討論,我認為這是關(guān)于我最近一直在思考的話(huà)題一個(gè)很好的切入點(diǎn)。這一切都從Jeff Leek在Simply Stats博客中發(fā)表了一篇關(guān)于在小樣本規模體系中使用的注意事項開(kāi)始的??傊?,他認為,當樣本量很小(這在生物領(lǐng)域頻繁發(fā)生)時(shí),即使有一些層和隱藏單元,具有較少參數的線(xiàn)性模型的表現是優(yōu)于深度網(wǎng)絡(luò )的。他還表示,當在一個(gè)使用僅僅80個(gè)樣本的MNIST數據集中進(jìn)行0和1的分類(lèi)時(shí),一個(gè)具有十大最具特征值的非常簡(jiǎn)單的線(xiàn)性預測器的表現要比一個(gè)簡(jiǎn)單的深度網(wǎng)絡(luò )好得多。這促使Andrew beam寫(xiě)出一篇文章來(lái)反駁,一個(gè)適當訓練的深度網(wǎng)絡(luò )能夠擊敗簡(jiǎn)單的線(xiàn)性模型,即使是很少的訓練樣本?,F如今頻繁出現的是,越來(lái)越多的生物醫學(xué)信息學(xué)研究人員正在使用來(lái)解決各種問(wèn)題。這種肆無(wú)忌憚的宣傳是真的有效嗎?或者說(shuō)這種線(xiàn)性模型是我們所需要的嗎?答案一如既往的是——這取決于先決條件。在這篇文章中,我想探索機器學(xué)習中的使用案例,實(shí)際上,深度學(xué)習并不是真正意義上對所有應用都有效,同時(shí)探索出我認為可以使得深度學(xué)習得到有效使用的解決想法,特別是針對新來(lái)者。

  打破深度學(xué)習之偏見(jiàn)

  首先,我們要剔除一些先入為主的偏見(jiàn),很多圈外的人們還處于一知半解的狀態(tài)。有兩個(gè)廣泛的認知點(diǎn),而我將要對這個(gè)更為技術(shù)性的做一個(gè)詳細說(shuō)明。這有點(diǎn)像是對Andrew Beam在他的帖子中所完美地闡述的“誤解”部分的延伸。

  深層學(xué)習確實(shí)可以在小樣本的情況下進(jìn)行

  深度學(xué)習是隨著(zhù)大數據的背景下產(chǎn)生的(請牢記,第一個(gè)Google大腦項目正在向深度網(wǎng)絡(luò )提供大量YouTube視頻),并自此不斷地被宣稱(chēng)運行在大量數據中的復雜算法。不幸的是,這個(gè)大數據/深度學(xué)習對不知為何也被誤解:在小樣本條件下不能使用的虛構體。如果你只有幾個(gè)樣本,在一個(gè)具有高樣本參數比例的神經(jīng)網(wǎng)絡(luò )中進(jìn)行開(kāi)發(fā),看起來(lái)似乎會(huì )出現過(guò)度擬合。然而,僅僅考慮給定問(wèn)題的樣本容量和維度,無(wú)論是監督還是無(wú)監督,都幾乎是在真空中對數據進(jìn)行建模的,而無(wú)需任何背景??赡艿那闆r是,你擁有與你問(wèn)題相關(guān)的數據源,或者該領(lǐng)域專(zhuān)家可以提供強有力的數據源,或者數據可以以非常特殊的方式進(jìn)行構建(例如,以圖形或圖像編碼的方式進(jìn)行)。在所有這些情況下,深度學(xué)習有機會(huì )成為一種可供選擇的方法——例如,你可以編碼較大的相關(guān)數據集的有用表示,并將其應用于你的問(wèn)題中。這種經(jīng)典的示例常見(jiàn)于自然語(yǔ)言處理,你可以學(xué)習大型語(yǔ)料庫中嵌入的詞語(yǔ),然后將它們作為一個(gè)較小的、較窄的語(yǔ)料庫嵌入到一個(gè)監督的任務(wù)中。在極端情況下,你可以擁有一套神經(jīng)網(wǎng)絡(luò ),共同學(xué)習一種表示方式,并在小型樣本中重用該表示的有效方式。這被稱(chēng)為一次性學(xué)習(one-shot learning),并已經(jīng)成功應用于包括計算機視覺(jué)和藥物發(fā)現在內的高維數據的許多領(lǐng)域當中。

  藥物發(fā)現中的一次性學(xué)習神經(jīng)網(wǎng)絡(luò ),摘自Altae-Tran et al. ACS Cent. Sci. 2017

  深度學(xué)習不是一切的答案

  我聽(tīng)到最多的第二個(gè)偏見(jiàn)就是過(guò)度宣傳。許多尚未從事AI職業(yè)的人,期望深度網(wǎng)絡(luò )能夠給他們一個(gè)神話(huà)般的表現提升力,僅僅因為它在其他領(lǐng)域有效。其他人則從深度學(xué)習在圖像、音樂(lè )和語(yǔ)言(最貼近人類(lèi)的三種數據類(lèi)型)中的令人印象深刻的表現中受到鼓舞,并通過(guò)嘗試訓練最新的GAN架構,而匆匆一頭扎進(jìn)這個(gè)領(lǐng)域。當然,在許多方面這種過(guò)度宣傳也是真實(shí)存在的。深度學(xué)習已經(jīng)成為機器學(xué)習中不可否認的力量,也是數據建模者的重要工具。它的普及帶來(lái)了諸如tensorflow和pytorch等重要框架,它們即使是在深度學(xué)習之外也是非常有用的。失敗者的巨星崛起的故事激勵了研究人員重新審視其他以前模糊的方法,如進(jìn)化方法和強化學(xué)習。但這不是萬(wàn)能的。除了考慮天下沒(méi)有免費的午餐之外,深度學(xué)習模型可以非常細微,并且需要仔細,有時(shí)甚至是非常昂貴的超參數搜索、調整和測試(文章后續將有更多講解)。此外,有很多情況下,從實(shí)踐的角度來(lái)看,使用深度學(xué)習是沒(méi)有意義的,而更簡(jiǎn)單的模型工作得更好。

  深度學(xué)習不僅僅是.fit()

  深度學(xué)習模型還有另外一個(gè)方面的應用,我認為在其他機器學(xué)習領(lǐng)域方面是有所損失的。大多數深度學(xué)習的教程和介紹性材料描述了這些模型由層次連接的節點(diǎn)層組成,其中第一層是輸入,最后一層是輸出,并且你可以使用某種形式的隨機梯度下降(SGD)來(lái)訓練它們??赡苡幸恍┖?jiǎn)要的介紹隨機梯度下降是如何工作的,以及什么是反向傳播,大部分解釋集中在神經(jīng)網(wǎng)絡(luò )類(lèi)型(卷積、循環(huán)等)。而優(yōu)化方法本身卻沒(méi)有什么人關(guān)注,這是很不幸的,因為很有可能深度學(xué)習為什么能夠起作用的很大(如果不是最大的)一部分原因就是這些特定的方法(例如來(lái)自Ferenc Huszár’s的這篇文章和從該文中引用的論文,并且要知道,如何優(yōu)化它們的參數,以及如何分割數據,從而有效地使用它們以便在合理的時(shí)間內獲得良好的收斂,是至關(guān)重要的。不過(guò),為什么隨機梯度如此關(guān)鍵卻仍然是未知的,現在也或多或少地出現了一些線(xiàn)索。我最喜歡的一個(gè)是將該方法解釋為執行貝葉斯推理的一部分。實(shí)質(zhì)上,每當你做某種形式的數值優(yōu)化時(shí),你都會(huì )用特定的假設和先驗來(lái)執行一些貝葉斯推理。實(shí)際上,有一個(gè)被稱(chēng)為概率數值計算(probabilistic numerics)的整個(gè)領(lǐng)域,就是從這個(gè)角度出現的。隨機梯度下降是沒(méi)有什么不同,最新的研究成果表明,該程序實(shí)際上是一個(gè)馬爾可夫鏈,在某些假設下,可以看作是后向變分近似的靜態(tài)分布。所以當你停止你的SGD并采用最后的參數時(shí),你基本上是從這個(gè)近似分布中抽樣的。我發(fā)現這個(gè)想法是有啟發(fā)性的,因為優(yōu)化器的參數(在這種情況下是學(xué)習率)使得這種方式更有意義。例如,當你增加SGD的學(xué)習參數時(shí),馬可夫鏈就會(huì )變得不穩定,直到找到大面積采樣的局部極小值;也就是說(shuō),增加了程序的方差。另一方面,如果你減少學(xué)習參數,馬爾可夫鏈慢慢接近狹義極小值,直到它收斂于一個(gè)區域;那就是你增加某個(gè)區域的偏差。而另一個(gè)參數,SGD中的批量大小也可以控制算法收斂的區域是什么類(lèi)型的區域:小批量的較大區域和大批次的小區域。

  SGD根據學(xué)習速率或批量大小而選擇較大或極限最小值

  這種復雜性意味著(zhù)深度網(wǎng)絡(luò )的優(yōu)化器變得非常重要:它們是模型的核心部分,與層架構一樣重要。這與機器學(xué)習中的許多其他模型并不完全相同。線(xiàn)性模型(甚至是正則化的,像LASSO算法)和支持向量機SVM都是凸優(yōu)化問(wèn)題,沒(méi)有那么多的細微差別,而且只有一個(gè)答案。這就是為什么來(lái)自其他領(lǐng)域和/或使用諸如scikit-learn工具的人在他們沒(méi)有找到一個(gè)非常簡(jiǎn)單的具有.fit()方法的API時(shí)會(huì )感到困惑。盡管有一些工具,如skflow,嘗試將網(wǎng)絡(luò )簡(jiǎn)化成一個(gè).fit()簽名,我認為這有點(diǎn)誤導,因為深度學(xué)習的全部重點(diǎn)就是它的靈活性。

  何時(shí)不需要深度學(xué)習?

  那么,什么時(shí)候深度學(xué)習不適合于某些任務(wù)呢?從我的角度來(lái)看,以下這些情況下,深度學(xué)習更多是一種阻礙,而不是福音。

  低預算或低投入問(wèn)題

  深度網(wǎng)絡(luò )是非常靈活的模型,具有多種架構和節點(diǎn)類(lèi)型、優(yōu)化器和正則化策略。根據應用程序,你的模型可能具有卷積層(多大?使用什么池操作?)或循環(huán)結構(有沒(méi)有門(mén)控?);它可能真的很深(hourglass、siamese,或者其他的架構)?還是只是具有很少的幾個(gè)隱藏層(有多少單元?);它可能使用整流線(xiàn)性單元或其他激活函數;它可能或可能不會(huì )有退出(在什么層次中?用什么分數?),權重應該是正則化的(l1、l2,或者是某些更奇怪的東西?)。這只是一部分列表,還有很多其他類(lèi)型的節點(diǎn)、連接,甚至損失函數。即便只是訓練一個(gè)大型網(wǎng)絡(luò )的示例,那些需要調整的參數以及需要探索的框架的過(guò)程也是非常耗時(shí)的。谷歌最近吹噓自己的AutoML方法可以自動(dòng)找到最好的架構,這是非常令人印象深刻的,但仍然需要超過(guò)800個(gè)GPU,全天候運行數周,這幾乎對于任何人來(lái)說(shuō)是都遙不可及的。關(guān)鍵在于訓練深層網(wǎng)絡(luò )時(shí),在計算和調試部分都會(huì )花費巨大的代價(jià)。這種費用對于許多日常預測問(wèn)題并沒(méi)有意義,即使調整小型網(wǎng)絡(luò )。調整網(wǎng)絡(luò )的投資回報率可能太低。即使有足夠的預算和承諾,也沒(méi)有理由不嘗試替代方法,即使是基準測試。你可能會(huì )驚喜地發(fā)現,線(xiàn)性SVM對于你就夠用了。

  解釋和傳達模型參數對一般受眾的重要性

  深度網(wǎng)絡(luò )也是各臭名昭著(zhù)的黑匣子,它具有高預測能力但可解釋性不足。盡管最近有很多工具,諸如顯著(zhù)圖(saliency maps)和激活差異(https://arxiv.org/abs/1704.02685),對某些領(lǐng)域而言是非常有用的,但它們不會(huì )完全遷移到所有的應用程序中。主要是,當你想要確保網(wǎng)絡(luò )不會(huì )通過(guò)記住數據集或專(zhuān)注于特定的虛假特征來(lái)欺騙你時(shí),這些工具就能很好地工作,但仍然難以將每個(gè)功能的重要性解釋為深度網(wǎng)絡(luò )的整體決策。在這個(gè)領(lǐng)域,沒(méi)有什么能夠真正地打敗線(xiàn)性模型,因為學(xué)習系數與響應有著(zhù)直接的關(guān)系。當將這些解釋傳達給一般受眾時(shí),這就顯得尤為重要。例如,醫生需要包含各種不同的數據來(lái)確認診斷。變量和結果之間的關(guān)系越簡(jiǎn)單、越直接,醫生就能更好地利用,而不是低于/高于實(shí)際值。此外,有些情況下,模型的精度并不像可解釋性那樣重要。例如,策略制定者可能想知道一些人口統計變量對于死亡率的影響,并且相較于預測的準確性來(lái)說(shuō),可能對這種關(guān)系的直接近似比更有興趣。在這兩種情況下,與更簡(jiǎn)單、更易滲透的方法相比,深度學(xué)習處于不利地位。

  建立因果機制

  模型可解釋性的極端情況是當我們試圖建立一個(gè)機械模型,即實(shí)際捕捉數據背后的現象的模型。一個(gè)好的例子包括試圖猜測兩個(gè)分子(例如藥物、蛋白質(zhì)、核酸等)是否在特定的細胞環(huán)境中相互作用,或者假設特定的營(yíng)銷(xiāo)策略如何對銷(xiāo)售產(chǎn)生實(shí)際的影響。在這個(gè)領(lǐng)域,根據專(zhuān)家意見(jiàn),沒(méi)有什么可以擊敗老式的貝葉斯方法,它們是我們表達并推斷因果關(guān)系的最好方式。Vicarious有一些很好的最新研究成果,說(shuō)明為什么這個(gè)更原則的方法在視頻游戲任務(wù)中比深度學(xué)習表現得更好。

  學(xué)習“非結構化”特征

  這可能是具有爭議性的。我發(fā)現深度學(xué)習擅長(cháng)的一個(gè)領(lǐng)域是為特定任務(wù)找到有用的數據表示。一個(gè)很好的例子就是上述的詞語(yǔ)嵌入。自然語(yǔ)言具有豐富而復雜的結構,可以說(shuō)與“上下文感知”(context-aware)網(wǎng)絡(luò )相近似:每個(gè)單詞都可以在向量中表示,而這個(gè)向量可以編碼其經(jīng)常使用的文本。在大型語(yǔ)料庫中學(xué)習的NLP任務(wù)中使用單詞嵌入,它有時(shí)可以在另一個(gè)語(yǔ)料庫的特定任務(wù)中提升效果。然而,如果所討論的語(yǔ)料庫是完全非結構化的,則可能不會(huì )起到任何作用。例如,假設你正在通過(guò)查看關(guān)鍵字的非結構化列表來(lái)對對象進(jìn)行分類(lèi),由于關(guān)鍵字不是在任何特定結構中都會(huì )使用的(比如在一個(gè)句子中),所以單詞嵌入不太可能有助于所有這些情況。在這種情況下,數據是真正的一個(gè)單詞包,這種表示很有可能足以滿(mǎn)足任務(wù)所需。與此相反的是,如果你使用預訓練的話(huà),可以更好地捕獲關(guān)鍵字的相似度,而且單詞嵌入并不是那么昂貴。不過(guò),我還是寧愿從一個(gè)單詞的表示開(kāi)始,看看能否得到很好的預測結果。畢竟,這個(gè)詞包的每個(gè)維度都比對應的詞嵌入槽更容易解讀。

  前景廣闊

  深度學(xué)習目前非?;鸨?,且資金充足,并且發(fā)展異常迅速。當你還在閱讀會(huì )議上發(fā)表的論文時(shí),它可能已經(jīng)有兩三次迭代了。這給我上述列出的幾點(diǎn)提出了很大的挑戰:深度學(xué)習在不久的將來(lái)可能在這些情景中是非常有用的。用于解釋圖像和離散序列的深度學(xué)習模型的工具越來(lái)越好。最近的軟件,如Edward與貝葉斯結合建模和深度網(wǎng)絡(luò )框架,將量化神經(jīng)網(wǎng)絡(luò )參數的不確定性考慮在內,通過(guò)概率編程的簡(jiǎn)易貝葉斯推理和自動(dòng)變分推理。從長(cháng)遠來(lái)看,可能會(huì )有一個(gè)簡(jiǎn)化的建模詞匯表,指出深度網(wǎng)絡(luò )可以具有的顯著(zhù)屬性,從而減少需要嘗試的參數空間。

  Edward通過(guò)tensorflow與概率規劃結合,將深度學(xué)習和貝葉斯的模型考慮在內。



關(guān)鍵詞: 深度學(xué)習

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>