<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > 分析深度學(xué)習背后的數學(xué)思想

分析深度學(xué)習背后的數學(xué)思想

作者: 時(shí)間:2020-09-17 來(lái)源:人工智能科技時(shí)代 收藏

深度神經(jīng)網(wǎng)絡(luò )(DNN)本質(zhì)上是通過(guò)具有多個(gè)連接的感知器而形成的,其中感知器是單個(gè)神經(jīng)元??梢詫⑷斯ど窠?jīng)網(wǎng)絡(luò )(ANN)視為一個(gè)系統,其中包含沿加權路徑饋入的一組輸入。然后處理這些輸入,并產(chǎn)生輸出以執行某些任務(wù)。隨著(zhù)時(shí)間的流逝,ANN“學(xué)習”了,并且開(kāi)發(fā)了不同的路徑。各種路徑可能具有不同的權重,并且在模型中,比那些產(chǎn)生較少的理想結果的路徑,以及被發(fā)現更重要(或產(chǎn)生更理想的結果)的路徑分配了更高的權重。

本文引用地址:http://dyxdggzs.com/article/202009/418420.htm

在DNN中,如果所有輸入都密集連接到所有輸出,則這些層稱(chēng)為密集層。此外,DNN可以包含多個(gè)隱藏層。隱藏層基本上是神經(jīng)網(wǎng)絡(luò )輸入和輸出之間的點(diǎn),激活函數對輸入的信息進(jìn)行轉換。之所以稱(chēng)其為隱藏層,是因為無(wú)法從系統的輸入和輸出中直接觀(guān)察到這一點(diǎn)。神經(jīng)網(wǎng)絡(luò )越深,網(wǎng)絡(luò )可以從數據中識別的越多,輸出的信息越多。

但是,盡管目標是從數據中盡可能多地學(xué)習,但是模型可能會(huì )遭受過(guò)度擬合的困擾。當模型從訓練數據(包括隨機噪聲)中學(xué)習太多時(shí),就會(huì )發(fā)生這種情況。然后,模型可以確定數據中非常復雜的模式,但這會(huì )對新數據的性能產(chǎn)生負面影響。訓練數據中拾取的噪聲不適用于新數據或看不見(jiàn)的數據,并且該模型無(wú)法概括發(fā)現的模式。非線(xiàn)性模型在模型中也非常重要,盡管該模型將從具有多個(gè)隱藏層的內容中學(xué)到很多東西,但是將線(xiàn)性形式應用于非線(xiàn)性問(wèn)題將導致性能下降。

現在的問(wèn)題是,“這些層如何學(xué)習東西?” 好吧,我們可以在這里將ANN應用于實(shí)際場(chǎng)景以解決問(wèn)題并了解如何訓練模型以實(shí)現其目標。案例分析如下:

在當前的大流行中,許多學(xué)校已經(jīng)過(guò)渡到虛擬學(xué)習,這使一些學(xué)生擔心他們通過(guò)課程的機會(huì )?!拔覍⑼ㄟ^(guò)本課程”這個(gè)問(wèn)題是任何人工智能系統都應該能夠解決的問(wèn)題。

為簡(jiǎn)單起見(jiàn),讓我們考慮該模型只有3個(gè)輸入:學(xué)生參加的講座的數量,在作業(yè)上花費的時(shí)間以及整個(gè)講座中互聯(lián)網(wǎng)連接丟失的次數。該模型的輸出將是二進(jìn)制分類(lèi)。學(xué)生要么通過(guò)了課程,要么沒(méi)有通過(guò),其實(shí)就是0和1?,F在到了學(xué)期期末,學(xué)生A參加了21堂課,花了90個(gè)小時(shí)進(jìn)行作業(yè),并且在整個(gè)學(xué)期中有7次失去互聯(lián)網(wǎng)連接。這些輸入信息被輸入到模型中,并且輸出預測學(xué)生有5%的機會(huì )通過(guò)課程。一周后,發(fā)布了最終成績(jì),學(xué)生A通過(guò)了該課程。那么,模型的預測出了什么問(wèn)題?

從技術(shù)上講,沒(méi)有任何問(wèn)題。該模型本來(lái)可以按目前開(kāi)發(fā)的方式工作。問(wèn)題在于該模型不知道發(fā)生了什么。我們將在路徑上初始化一些權重,但是該模型當前不知道對與錯。因此,權重不正確。這就是學(xué)習的主要源頭,其中的想法是模型需要掌握錯誤的時(shí)間的規律,我們通過(guò)計算某種形式的“損失”來(lái)做到這一點(diǎn)。計算得出的損失取決于當前的問(wèn)題,但是通常會(huì )涉及使預測輸出與實(shí)際輸出之間的差異最小化。


在上述情況下,只有一名學(xué)生和一個(gè)錯誤點(diǎn)可以減少到最小。但是,通常不是這種情況?,F在,如果考慮將多個(gè)學(xué)生和多個(gè)差異最小化,那,總損失通常將計算為所有預測和實(shí)際觀(guān)察值之間的差異的平均值。

回想一下,正在計算的損失取決于當前的問(wèn)題。因此,由于我們當前的問(wèn)題是二元分類(lèi)(0和1分類(lèi)),因此適當的損失計算將是交叉熵損失,該功能背后的想法是,它比較學(xué)生是否將通過(guò)課程的預測分布與實(shí)際分布,并嘗試最小化這些分布之間的差異。

取而代之的是,我們不再希望預測學(xué)生是否會(huì )通過(guò)該課程,而是希望預測他們將在該課程中獲得的分數。因此,交叉熵損失將不再是一種合適的方法。相反,均方誤差損失將更合適。此方法適用于回歸問(wèn)題,其思想是將嘗試最小化實(shí)際值和預測值之間的平方差。

現在我們了解了一些損失函數(這里有損失函數的介紹基礎:數學(xué)分析基礎與Tensorflow2.0回歸模型 文章末尾可下載PDF書(shū)籍),我們可以進(jìn)行損失優(yōu)化和模型訓練。擁有良好DNN的關(guān)鍵因素是擁有適當的權重。損耗優(yōu)化應嘗試找到一組權重W,以最小化計算出的損耗。如果只有一個(gè)重量分量,則可以在二維圖上繪制重量和損耗,然后選擇使損耗最小的重量。但是,大多數DNN具有多個(gè)權重分量,并且可視化n維圖非常困難。

取而代之的是,針對所有權重計算損失函數的導數,以確定最大上升的方向?,F在,模型可以理解向上和向下的方向,然后向下移動(dòng),直到達到局部最小值的收斂點(diǎn)。完成這一體面操作后,將返回一組最佳權重,這就是DNN應該使用的權重(假設模型開(kāi)發(fā)良好的話(huà))。

計算此導數的過(guò)程稱(chēng)為反向傳播,它本質(zhì)上是來(lái)自微積分的鏈式法則??紤]上面顯示的神經(jīng)網(wǎng)絡(luò ),第一組權重的微小變化如何影響最終損失?這就是導數或梯度試圖解釋的內容。但是,第一組權重被饋送到隱藏層,然后隱藏層又具有另一組權重,從而導致預測的輸出和損失。因此,還應考慮權重變化對隱藏層的影響?,F在,這些是網(wǎng)絡(luò )中僅有的兩個(gè)部分。但是,如果要考慮的權重更多,則可以通過(guò)應用從輸出到輸入的鏈式規則來(lái)繼續此過(guò)程。

訓練DNN時(shí)要考慮的另一個(gè)重要因素是學(xué)習率(可以看做是數學(xué)中的收斂因子)。當模型行進(jìn)以找到最佳的權重集時(shí),它需要以某種因素來(lái)更新其權重。盡管這似乎微不足道,但是確定模型移動(dòng)的因素非常非常必要。如果因子太小,則該模型可以運行一段指數級的長(cháng)時(shí)間,也可以陷入非全局最小值的某個(gè)位置。如果因數太大,則模型可能會(huì )完全錯過(guò)目標點(diǎn),然后發(fā)散。

盡管固定比率可能是理想的,但自適應學(xué)習比率會(huì )減少前面提到的問(wèn)題的機會(huì )。也就是說(shuō),該系數將根據當前梯度,當前權重的大小或其他可能影響模型下一步來(lái)尋找最佳權重的地方而變化。


可以看出,DNN是基于微積分和一些統計數據構建的。評估這些深度技術(shù)過(guò)程背后的數學(xué)思想是有用的,因為它可以幫助人們了解模型中真正發(fā)生的事情,并且可以導致整體上開(kāi)發(fā)出更好的模型。



關(guān)鍵詞: 深度學(xué)習

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>