<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 業(yè)界動(dòng)態(tài) > Nature重磅:Hinton、LeCun、Bengio三巨頭權威科普深度學(xué)習

Nature重磅:Hinton、LeCun、Bengio三巨頭權威科普深度學(xué)習

作者: 時(shí)間:2016-12-28 來(lái)源:網(wǎng)絡(luò ) 收藏

  借助,多處理層組成的計算模型可通過(guò)多層抽象來(lái)學(xué)習數據表征( representations)。這些方法顯著(zhù)推動(dòng)了語(yǔ)音識別、視覺(jué)識別、目標檢測以及許多其他領(lǐng)域(比如,藥物發(fā)現以及基因組學(xué))的技術(shù)發(fā)展。利用反向傳播算法(backpropagation algorithm)來(lái)顯示機器將會(huì )如何根據前一層的表征改變用以計算每層表征的內部參數,發(fā)現了大數據集的復雜結構。深層卷積網(wǎng)絡(luò )(deep convolutional nets)為圖像、視頻和音頻等數據處理上帶來(lái)突破性進(jìn)展,而遞歸網(wǎng)絡(luò )(recurrent nets )也給序列數據(諸如文本、語(yǔ)言)的處理帶來(lái)曙光。

本文引用地址:http://dyxdggzs.com/article/201612/342188.htm

  機器學(xué)習為現代生活諸多方面帶來(lái)巨大動(dòng)力:從網(wǎng)頁(yè)搜索到社交網(wǎng)絡(luò )內容過(guò)濾再到電商網(wǎng)商推薦,在相機、智能手機等消費品中也越來(lái)越多見(jiàn)。機器學(xué)習系統被用來(lái)識別圖像中的物體、將語(yǔ)音轉為文本,根據用戶(hù)興趣自動(dòng)匹配新聞、消息或產(chǎn)品,挑選相關(guān)搜索結果。這類(lèi)被應用程序越來(lái)越多地采用的技術(shù),叫做。

  傳統機器學(xué)習技術(shù)在處理原始輸入的自然數據方面能力有限。幾十年來(lái),建構模式識別或機器學(xué)習系統需要利用嚴謹的工程學(xué)和相當豐富的專(zhuān)業(yè)知識設計出一個(gè)特征提取器,它能將原始數據(例如圖像像素值)轉化成適于內部描述或表征的向量( vector ),在提取器中,學(xué)習子系統(通常是一個(gè)分類(lèi)器)可以檢測或分類(lèi)輸入模式。

  表征學(xué)習(representation learning)是這樣一套學(xué)習方法:輸入原始數據后,機器能夠自動(dòng)發(fā)現檢測或分類(lèi)所需的表征信息。深度學(xué)習是一種多層描述的表征學(xué)習,通過(guò)組合簡(jiǎn)單、非線(xiàn)性模塊來(lái)實(shí)現,每個(gè)模塊都會(huì )將最簡(jiǎn)單的描述(從原始輸入開(kāi)始)轉變成較高層、較為抽象的描述。通過(guò)積累足夠多的上述表征轉化,機器能學(xué)習非常復雜的函數。就分類(lèi)任務(wù)來(lái)說(shuō),更高層的表征會(huì )放大輸入信號的特征,而這對區分和控制不相關(guān)變量非常關(guān)鍵。比如,圖片最初以像素值的方式出現,第一特征層級中,機器習得的特征主要是圖像中特定方位、位置邊沿之有無(wú)。第二特征層級中,主要是通過(guò)發(fā)現特定安排的邊緣來(lái)檢測圖案,此時(shí)機器并不考慮邊沿位置的微小變化。第三層中會(huì )將局部圖像與物體相應部分匹配,后續的層級將會(huì )通過(guò)把這些局部組合起來(lái)從而識別出整個(gè)物體。深度學(xué)習的關(guān)鍵之處在于:這些特征層級并非出自人類(lèi)工程師之手;而是機器通過(guò)一個(gè)通用(general-purpose)學(xué)習程序,從大量數據中自學(xué)得出。

  某些根深蒂固的問(wèn)題困擾了人工智能從業(yè)者許多年,以至于人們最出色的嘗試都無(wú)功而返。而深度學(xué)習的出現,讓這些問(wèn)題的解決邁出了至關(guān)重要的步伐。深度學(xué)習善于在高維度的數據中摸索出錯綜復雜的結構,因此能應用在許多不同的領(lǐng)域,比如科學(xué)、商業(yè)和政府。此外,除了圖像識別和語(yǔ)音識別,它還在許多方面擊敗了其他機器學(xué)習技術(shù),比如預測潛在藥物分子的活性、分析粒子加速器的數據、重構大腦回路、預測非編碼DNA的突變對基因表達和疾病有何影響等。也許,最讓人驚訝的是,在自然語(yǔ)言理解方面,特別是話(huà)題分類(lèi)、情感分析、問(wèn)答系統和語(yǔ)言翻譯等不同的任務(wù)上,深度學(xué)習都展現出了無(wú)限光明的前景。

  在不久的將來(lái),我們認為深度學(xué)習將取得更多成就,因為它只需要極少的人工參與,所以它能輕而易舉地從計算能力提升和數據量增長(cháng)中獲得裨益。目前正在開(kāi)發(fā)的用于深層神經(jīng)網(wǎng)絡(luò )的新型學(xué)習算法和體系結構必將加速這一進(jìn)程。

  監督式學(xué)習

  不管深度與否,機器學(xué)習最普遍的形式都是監督式學(xué)習(supervised learning)。比如說(shuō),我們想構造一個(gè)系統,它能根據特定元素對圖片進(jìn)行分類(lèi),例如包含一棟房子、一輛車(chē)、一個(gè)人或一只寵物。首先,我們要收集大量包含有房子、車(chē)、人或寵物的圖片,組成一個(gè)數據集(data set),每張圖片都標記有它的類(lèi)別。在訓練時(shí),每當我們向機器展示一張圖片,機器就會(huì )輸出一個(gè)相應類(lèi)別的向量。我們希望的結果是:指定類(lèi)別的分數最高,高于其他所有類(lèi)別。然而,如果不經(jīng)過(guò)訓練,這將是不可能完成的任務(wù)。為此,我們通過(guò)一個(gè)目標函數來(lái)計算實(shí)際輸出與期望輸出之間的誤差或距離。接下來(lái),為了減小誤差,機器會(huì )對其內部可調參數進(jìn)行調整。這些可調參數常被稱(chēng)為「權重」(weight),是實(shí)數,可看做定義機器輸入-輸出功能的「門(mén)把手」。在一個(gè)典型的深度學(xué)習系統中,可能存在著(zhù)成千上億的可調權重及用以訓練機器的標記樣本。

  為了正確地調整權重矢量( weight vector),學(xué)習算法會(huì )計算出一個(gè)梯度矢量( gradient vector)。對每一個(gè)權重,這個(gè)梯度矢量都能指示出,當權重略微增減一點(diǎn)點(diǎn)時(shí),誤差會(huì )隨之增減多少量。接著(zhù),權重矢量就會(huì )往梯度矢量的反方向進(jìn)行調整。

  從所有訓練范例之上,平均看來(lái),目標函數( objective function)可被視為一片崎嶇的山地,坐落于由權重組成的高維空間。梯度矢量為負值的地方,意味著(zhù)山地中最陡峭的下坡方向,一路接近最小值。這個(gè)最小值,也就是平均輸出誤差最小之處。

  在實(shí)踐中,大多數業(yè)內人士都是用一種被稱(chēng)為「隨機梯度下降」(SGD - Stochastic Gradient Descent)的算法(梯度下降Grident Descent 是「最小化風(fēng)險函數」以及「損失函數」的一種常用方法,「隨機梯度下降」是此類(lèi)下的一種通過(guò)迭代求解的思路——譯者注)。每一次迭代包括以下幾個(gè)步驟:獲取一些樣本的輸入矢量( input vector),計算輸出結果和誤差,計算這些樣本的平均梯度,根據平均梯度調整相應權重。這個(gè)過(guò)程在各個(gè)從整個(gè)訓練集中抽取的小子集之上重復,直到目標函數的平均值停止下降。它被稱(chēng)做隨機(Stochastic)是因為每個(gè)樣本組都會(huì )給出一個(gè)對于整個(gè)訓練集( training set)的平均梯度(average gradient)的噪音估值(noisy estimate)。較于更加精確的組合優(yōu)化技術(shù),這個(gè)簡(jiǎn)單的方法通??梢陨衿娴乜焖俚卣页鲆粋€(gè)權重適當的樣本子集。訓練過(guò)后,系統的性能將在另外一組不同樣本(即測試集)上進(jìn)行驗證,以期測試機器的泛化能力( generalization ability) ——面對訓練中從未遇過(guò)的新輸入,機器能夠給出合理答案。

  很多當今機器學(xué)習的實(shí)際應用都在人工設定的特征上使用「線(xiàn)性分類(lèi)」(linear classifiers)。一個(gè)「二元線(xiàn)性分類(lèi)器」(two-class linear classifier)可以計算出特征向量的「加權和」(weighted sum)。如果「加權和」高于閾值,該輸入樣本就被歸類(lèi)于某個(gè)特定的類(lèi)別。

  二十世紀六十年代以來(lái),我們就知道線(xiàn)性分類(lèi)只能將輸入樣本劃分到非常簡(jiǎn)單的區域中,即被超平面切分的半空間。但是,對于類(lèi)似圖像及語(yǔ)音識別等問(wèn)題,要求「輸入-輸出函數」(input–output function)必須對輸入樣本的無(wú)關(guān)變化不敏感,比如,圖片中物體的位置,方向或者物體上的裝飾圖案,又比如,聲音的音調或者口音;與此同時(shí)「輸入-輸出函數」又需要對某些細微差異特別敏感(比如,一匹白色的狼和一種長(cháng)得很像狼的被稱(chēng)作薩摩耶的狗)。兩只薩摩耶在不同的環(huán)境里擺著(zhù)不同姿勢的照片從像素級別來(lái)說(shuō)很可能會(huì )非常地不一樣,然而在類(lèi)似背景下擺著(zhù)同樣姿勢的一只薩摩耶和一只狼的照片在像素級別來(lái)說(shuō)很可能會(huì )非常相像。一個(gè)「線(xiàn)性分類(lèi)器」(linear classifier),或者其他基于原始像素操作的「淺層(shallow)」分類(lèi)操作是無(wú)論如何也無(wú)法將后者中的兩只區分開(kāi),也無(wú)法將前者中的兩只分到同樣的類(lèi)別里的。這也就是為什么「淺層」「分類(lèi)器(classifiers)」需要一個(gè)可以出色地解決「選擇性-恒常性困境」( selectivity–invariance dilemma)的「特征提取器」(feature extractor)—— 提取出對于辨別圖片內容有意義的信息,同時(shí)忽略不相關(guān)的信息,比如,動(dòng)物的姿勢。我們可以用一些常規的非線(xiàn)性特征來(lái)增強「分類(lèi)器」(classifiers)的效果,比如「核方法」(kernel methods),但是,這些常規特征,比如「高斯核」(Gaussian Kernel)所找出來(lái)的那些,很難泛化( generalize )到與訓練集差別別較大的輸入上。傳統的方法是人工設計好的「特征提取器」,這需要相當的工程技巧和問(wèn)題領(lǐng)域的專(zhuān)業(yè)知識。但是,如果好的「特征提取器」可以通過(guò)「通用學(xué)習程序(General-Purpose learning procedure)」完成自學(xué)習,那么這些麻煩事兒就可以被避免了。這就是深度學(xué)習的重要優(yōu)勢。

    

  圖1| 多層神經(jīng)網(wǎng)路和反向傳播

  a. 一個(gè)多層神經(jīng)網(wǎng)絡(luò )(如圖所示相互連接的點(diǎn))能夠整合(distort)輸入空間(圖中以紅線(xiàn)與藍線(xiàn)為例)讓數據變得線(xiàn)性可分。注意輸入空間的規則網(wǎng)格(左側)如何轉被隱藏單元(中間)轉換的。例子只有兩個(gè)輸入單元、兩個(gè)隱藏單元和一個(gè)輸出單元,但事實(shí)上,用于對象識別和自然語(yǔ)言處理的網(wǎng)絡(luò )通常包含了數十或成千上萬(wàn)個(gè)單元。(本節引用改寫(xiě)自 C. Olah (http://colah.github.io/).)

  b. 導數的鏈式法則告訴我們,兩個(gè)微小增量(即x關(guān)于y的增量,以及y關(guān)于z的增量)是如何構成的。x的增量Δx導致了y的增量Δy,這是通過(guò)乘以?y/?x來(lái)實(shí)現的(即偏導數的定義)。同樣,Δy的變化也會(huì )引起Δz的變化。用一個(gè)方程代替另一個(gè)方程引出了導數的鏈式法則( the chain rule of derivatives),即增量Δx如何通過(guò)與?y/?x及 ?z/?x相乘使得z也發(fā)生增量Δz。當x,y 和 z都是向量時(shí)這一規律也同樣適用(使用雅克比矩陣)。

  c. 這個(gè)公式用于計算在包含著(zhù)兩個(gè)隱層和一個(gè)輸出層的神經(jīng)網(wǎng)絡(luò )中的前向傳輸,每個(gè)層面的逆向傳遞梯度都構成了一個(gè)模組。在每一層,我們首先計算面向每個(gè)單元的總輸入值z,即上一層的輸出單元的加權和;然后,通過(guò)將一個(gè)非線(xiàn)性函數f(.)應用于z來(lái)得出這個(gè)單元的輸出。為了簡(jiǎn)化流程,我們忽略掉一些閾值項(bias terms)。在神經(jīng)網(wǎng)絡(luò )中使用的非線(xiàn)性函數包含了近些年較為常用的校正線(xiàn)性單元(ReLU) f(z) = max(0,z),以及更傳統的 sigmoid函數,比如,雙曲線(xiàn)正切函數, f(z) = (exp(z) ? exp(?z))/(exp(z) + exp(?z)) 和 邏輯函數f(z) = 1/(1 + exp(?z)).

  d. 該公式用于計算反向傳遞。在每一個(gè)隱藏層中,我們都會(huì )計算每個(gè)單元輸出的導數誤差,即上述層中上一層所有單元輸入的導數誤差的加權總和。 然后,將關(guān)于輸出的導數誤差乘以函數f(z)的梯度(gradient),得到關(guān)于輸入的導數誤差。 在輸出層中,通過(guò)對成本函數進(jìn)行微分計算,求得關(guān)于輸出單元的誤差導數。因此我們得出結論 yl - tl 如果對應于單元l的成本函數是 0.5(yl - tl) 2 (注意tl是目標值)。一旦?E/?zk已知,那么,就能通過(guò)yj ?E/?zk調整單元j的內星權向量wjk。

    

  圖2 | 卷積網(wǎng)絡(luò )的內部


上一頁(yè) 1 2 3 下一頁(yè)

關(guān)鍵詞: Nature 深度學(xué)習

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>