<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > 深度學(xué)習入門(mén)必須理解這25個(gè)概念

深度學(xué)習入門(mén)必須理解這25個(gè)概念

作者: 時(shí)間:2017-10-17 來(lái)源:網(wǎng)絡(luò ) 收藏

  基礎

本文引用地址:http://dyxdggzs.com/article/201710/370123.htm

  1、神經(jīng)元(Neuron)——就像形成我們大腦基本元素的神經(jīng)元一樣,神經(jīng)元形成的基本結構。想象一下,當我們得到新信息時(shí)我們該怎么做。當我們獲取信息時(shí),我們一般會(huì )處理它,然后生成一個(gè)輸出。類(lèi)似地,在的情況下,神經(jīng)元接收輸入,處理它并產(chǎn)生輸出,而這個(gè)輸出被發(fā)送到其他神經(jīng)元用于進(jìn)一步處理,或者作為最終輸出進(jìn)行輸出。

    

 

  2、權重(Weights)——當輸入進(jìn)入神經(jīng)元時(shí),它會(huì )乘以一個(gè)權重。例如,如果一個(gè)神經(jīng)元有兩個(gè)輸入,則每個(gè)輸入將具有分配給它的一個(gè)關(guān)聯(lián)權重。我們隨機初始化權重,并在模型訓練過(guò)程中更新這些權重。訓練后的神經(jīng)網(wǎng)絡(luò )對其輸入賦予較高的權重,這是它認為與不那么重要的輸入相比更為重要的輸入。為零的權重則表示特定的特征是微不足道的。

  讓我們假設輸入為 a,并且與其相關(guān)聯(lián)的權重為 W1,那么在通過(guò)節點(diǎn)之后,輸入變?yōu)?nbsp;a *W1。

    

 

  3、偏差(Bias)——除了權重之外,另一個(gè)被應用于輸入的線(xiàn)性分量被稱(chēng)為偏差。它被加到權重與輸入相乘的結果中?;旧咸砑悠畹哪康氖莵?lái)改變權重與輸入相乘所得結果的范圍的。添加偏差后,結果將看起來(lái)像 a* W1 偏差。這是輸入變換的最終線(xiàn)性分量。

  4、激活函數(Activation Function)——一旦將線(xiàn)性分量應用于輸入,將會(huì )需要應用一個(gè)非線(xiàn)性函數。這通過(guò)將激活函數應用于線(xiàn)性組合來(lái)完成。激活函數將輸入信號轉換為輸出信號。應用激活函數后的輸出看起來(lái)像 f(a *W1+ b),其中 f()就是激活函數。

  在下圖中,我們將"n"個(gè)輸入給定為 X1 到 Xn 而與其相應的權重為 Wk1 到 Wkn。我們有一個(gè)給定值為 bk 的偏差。權重首先乘以與其對應的輸入,然后與偏差加在一起。而這個(gè)值叫做 u。

  U =ΣW*X +b

  激活函數被應用于 u,即 f(u),并且我們會(huì )從神經(jīng)元接收最終輸出,如 yk = f(u)。

    

 

  常用的激活函數

  最常用的激活函數就是 Sigmoid,ReLU 和 softmax

  (a)Sigmoid——最常用的激活函數之一是 Sigmoid,它被定義為:

  sigmoid(x)=1/(1+e -x )

    

 

  Sigmoid 變換產(chǎn)生一個(gè)值為 0 到 1 之間更平滑的范圍。我們可能需要觀(guān)察在輸入值略有變化時(shí)輸出值中發(fā)生的變化。光滑的曲線(xiàn)使我們能夠做到這一點(diǎn),因此優(yōu)于階躍函數。

  (b)ReLU(整流線(xiàn)性單位)——與 Sigmoid 函數不同的是,最近的網(wǎng)絡(luò )更喜歡使用 ReLu 激活函數來(lái)處理隱藏層。該函數定義為:

  f(x)=max(x,0)

  當 X>0 時(shí),函數的輸出值為 X;當 X<=0 時(shí),輸出值為 0。函數圖如下圖所示:

    

 

  使用 ReLU 函數的最主要的好處是對于大于 0 的所有輸入來(lái)說(shuō),它都有一個(gè)不變的導數值。常數導數值有助于網(wǎng)絡(luò )訓練進(jìn)行得更快。

  (c) Softmax——Softmax 激活函數通常用于輸出層,用于分類(lèi)問(wèn)題。它與 sigmoid 函數是很類(lèi)似的,唯一的區別就是輸出被歸一化為總和為 1。Sigmoid 函數將發(fā)揮作用以防我們有一個(gè)二進(jìn)制輸出,但是如果我們有一個(gè)多類(lèi)分類(lèi)問(wèn)題,softmax 函數使為每個(gè)類(lèi)分配值這種操作變得相當簡(jiǎn)單,而這可以將其解釋為概率。

  以這種方式來(lái)操作的話(huà),我們很容易看到——假設你正在嘗試識別一個(gè)可能看起來(lái)像 8 的 6。該函數將為每個(gè)數字分配值如下。我們可以很容易地看出,最高概率被分配給 6,而下一個(gè)最高概率分配給 8,依此類(lèi)推……

    

 

  5、神經(jīng)網(wǎng)絡(luò )(Neural Network)——神經(jīng)網(wǎng)絡(luò )構成了的支柱。神經(jīng)網(wǎng)絡(luò )的目標是找到一個(gè)未知函數的近似值。它由相互聯(lián)系的神經(jīng)元形成。這些神經(jīng)元具有權重和在網(wǎng)絡(luò )訓練期間根據錯誤來(lái)進(jìn)行更新的偏差。激活函數將非線(xiàn)性變換置于線(xiàn)性組合,而這個(gè)線(xiàn)性組合稍后會(huì )生成輸出。激活的神經(jīng)元的組合會(huì )給出輸出值。

  一個(gè)很好的神經(jīng)網(wǎng)絡(luò )定義:

  "神經(jīng)網(wǎng)絡(luò )由許多相互關(guān)聯(lián)的概念化的人造神經(jīng)元組成,它們之間傳遞相互數據,并且具有根據網(wǎng)絡(luò )"經(jīng)驗"調整的相關(guān)權重。神經(jīng)元具有激活閾值,如果通過(guò)其相關(guān)權重的組合和傳遞給他們的數據滿(mǎn)足這個(gè)閾值的話(huà),其將被解雇;發(fā)射神經(jīng)元的組合導致"學(xué)習"。

  6、輸入/輸出/隱藏層(Input / Output / Hidden Layer)——正如它們名字所代表的那樣,輸入層是接收輸入那一層,本質(zhì)上是網(wǎng)絡(luò )的第一層。而輸出層是生成輸出的那一層,也可以說(shuō)是網(wǎng)絡(luò )的最終層。處理層是網(wǎng)絡(luò )中的隱藏層。這些隱藏層是對傳入數據執行特定任務(wù)并將其生成的輸出傳遞到下一層的那些層。輸入和輸出層是我們可見(jiàn)的,而中間層則是隱藏的。

    

 

  7、MLP(多層感知器)——單個(gè)神經(jīng)元將無(wú)法執行高度復雜的任務(wù)。因此,我們使用堆棧的神經(jīng)元來(lái)生成我們所需要的輸出。在最簡(jiǎn)單的網(wǎng)絡(luò )中,我們將有一個(gè)輸入層、一個(gè)隱藏層和一個(gè)輸出層。每個(gè)層都有多個(gè)神經(jīng)元,并且每個(gè)層中的所有神經(jīng)元都連接到下一層的所有神經(jīng)元。這些網(wǎng)絡(luò )也可以被稱(chēng)為完全連接的網(wǎng)絡(luò )。

    

 

  8、正向傳播(Forward Propagation)——正向傳播是指輸入通過(guò)隱藏層到輸出層的運動(dòng)。在正向傳播中,信息沿著(zhù)一個(gè)單一方向前進(jìn)。輸入層將輸入提供給隱藏層,然后生成輸出。這過(guò)程中是沒(méi)有反向運動(dòng)的。

  9、成本函數(Cost Function)——當我們建立一個(gè)網(wǎng)絡(luò )時(shí),網(wǎng)絡(luò )試圖將輸出預測得盡可能靠近實(shí)際值。我們使用成本/損失函數來(lái)衡量網(wǎng)絡(luò )的準確性。而成本或損失函數會(huì )在發(fā)生錯誤時(shí)嘗試懲罰網(wǎng)絡(luò )。

  我們在運行網(wǎng)絡(luò )時(shí)的目標是提高我們的預測精度并減少誤差,從而最大限度地降低成本。最優(yōu)化的輸出是那些成本或損失函數值最小的輸出。

  如果我將成本函數定義為均方誤差,則可以寫(xiě)為:

  C= 1/m ∑(y–a)^2,

  其中 m 是訓練輸入的數量,a 是預測值,y 是該特定示例的實(shí)際值。

  學(xué)習過(guò)程圍繞最小化成本來(lái)進(jìn)行。

  10、梯度下降(Gradient Descent)——梯度下降是一種最小化成本的優(yōu)化算法。要直觀(guān)地想一想,在爬山的時(shí)候,你應該會(huì )采取小步驟,一步一步走下來(lái),而不是一下子跳下來(lái)。因此,我們所做的就是,如果我們從一個(gè)點(diǎn) x 開(kāi)始,我們向下移動(dòng)一點(diǎn),即Δh,并將我們的位置更新為 x-Δh,并且我們繼續保持一致,直到達到底部??紤]最低成本點(diǎn)。

    

 

  在數學(xué)上,為了找到函數的局部最小值,我們通常采取與函數梯度的負數成比例的步長(cháng)。

  11、學(xué)習率(Learning Rate)——學(xué)習率被定義為每次迭代中成本函數中最小化的量。簡(jiǎn)單來(lái)說(shuō),我們下降到成本函數的最小值的速率是學(xué)習率。我們應該非常仔細地選擇學(xué)習率,因為它不應該是非常大的,以至于最佳解決方案被錯過(guò),也不應該非常低,以至于網(wǎng)絡(luò )需要融合。

    

 

  12、反向傳播(Backpropagation)——當我們定義神經(jīng)網(wǎng)絡(luò )時(shí),我們?yōu)槲覀兊墓濣c(diǎn)分配隨機權重和偏差值。一旦我們收到單次迭代的輸出,我們就可以計算出網(wǎng)絡(luò )的錯誤。然后將該錯誤與成本函數的梯度一起反饋給網(wǎng)絡(luò )以更新網(wǎng)絡(luò )的權重。 最后更新這些權重,以便減少后續迭代中的錯誤。使用成本函數的梯度的權重的更新被稱(chēng)為反向傳播。

  在反向傳播中,網(wǎng)絡(luò )的運動(dòng)是向后的,錯誤隨著(zhù)梯度從外層通過(guò)隱藏層流回,權重被更新。

  13、批次(Batches)——在訓練神經(jīng)網(wǎng)絡(luò )的同時(shí),不用一次發(fā)送整個(gè)輸入,我們將輸入分成幾個(gè)隨機大小相等的塊。與整個(gè)數據集一次性饋送到網(wǎng)絡(luò )時(shí)建立的模型相比,批量訓練數據使得模型更加廣義化。

  14、周期(Epochs)——周期被定義為向前和向后傳播中所有批次的單次訓練迭代。這意味著(zhù) 1 個(gè)周期是整個(gè)輸入數據的單次向前和向后傳遞。

  你可以選擇你用來(lái)訓練網(wǎng)絡(luò )的周期數量,更多的周期將顯示出更高的網(wǎng)絡(luò )準確性,然而,網(wǎng)絡(luò )融合也需要更長(cháng)的時(shí)間。另外,你必須注意,如果周期數太高,網(wǎng)絡(luò )可能會(huì )過(guò)度擬合。

  15、丟棄(Dropout)——Dropout 是一種正則化技術(shù),可防止網(wǎng)絡(luò )過(guò)度擬合套。顧名思義,在訓練期間,隱藏層中的一定數量的神經(jīng)元被隨機地丟棄。這意味著(zhù)訓練發(fā)生在神經(jīng)網(wǎng)絡(luò )的不同組合的神經(jīng)網(wǎng)絡(luò )的幾個(gè)架構上。你可以將 Dropout 視為一種綜合技術(shù),然后將多個(gè)網(wǎng)絡(luò )的輸出用于產(chǎn)生最終輸出。

    

 

  16、批量歸一化(Batch Normalization)——作為一個(gè)概念,批量歸一化可以被認為是我們在河流中設定為特定檢查點(diǎn)的水壩。這樣做是為了確保數據的分發(fā)與希望獲得的下一層相同。當我們訓練神經(jīng)網(wǎng)絡(luò )時(shí),權重在梯度下降的每個(gè)步驟之后都會(huì )改變,這會(huì )改變數據的形狀如何發(fā)送到下一層。

    

 

  但是下一層預期分布類(lèi)似于之前所看到的分布。 所以我們在將數據發(fā)送到下一層之前明確規范化數據。

    

 

  卷積神經(jīng)網(wǎng)絡(luò )

  17、濾波器(Filters)——CNN 中的濾波器與加權矩陣一樣,它與輸入圖像的一部分相乘以產(chǎn)生一個(gè)回旋輸出。我們假設有一個(gè)大小為 28 28 的圖像,我們隨機分配一個(gè)大小為 3 3 的濾波器,然后與圖像不同的 3 * 3 部分相乘,形成所謂的卷積輸出。濾波器尺寸通常小于原始圖像尺寸。在成本最小化的反向傳播期間,濾波器值被更新為重量值。

  參考一下下圖,這里 filter 是一個(gè) 3 * 3 矩陣:

    

 

  與圖像的每個(gè) 3 * 3 部分相乘以形成卷積特征。

    

 

  18、卷積神經(jīng)網(wǎng)絡(luò )(CNN)——卷積神經(jīng)網(wǎng)絡(luò )基本上應用于圖像數據。假設我們有一個(gè)輸入的大小(28 28 3),如果我們使用正常的神經(jīng)網(wǎng)絡(luò ),將有 2352(28 28 3)參數。并且隨著(zhù)圖像的大小增加參數的數量變得非常大。我們"卷積"圖像以減少參數數量(如上面濾波器定義所示)。當我們將濾波器滑動(dòng)到輸入體積的寬度和高度時(shí),將產(chǎn)生一個(gè)二維激活圖,給出該濾波器在每個(gè)位置的輸出。我們將沿深度尺寸堆疊這些激活圖,并產(chǎn)生輸出量。

  你可以看到下面的圖,以獲得更清晰的印象。

    

 

  19、池化(Pooling)——通常在卷積層之間定期引入池層。這基本上是為了減少一些參數,并防止過(guò)度擬合。最常見(jiàn)的池化類(lèi)型是使用 MAX 操作的濾波器尺寸(2,2)的池層。它會(huì )做的是,它將占用原始圖像的每個(gè) 4 * 4 矩陣的最大值。

    

 

  你還可以使用其他操作(如平均池)進(jìn)行池化,但是最大池數量在實(shí)踐中表現更好。

  20、填充(Padding)——填充是指在圖像之間添加額外的零層,以使輸出圖像的大小與輸入相同。這被稱(chēng)為相同的填充。

    

 

  在應用濾波器之后,在相同填充的情況下,卷積層具有等于實(shí)際圖像的大小。

  有效填充是指將圖像保持為具有實(shí)際或"有效"的圖像的所有像素。在這種情況下,在應用濾波器之后,輸出的長(cháng)度和寬度的大小在每個(gè)卷積層處不斷減小。

  21、數據增強(Data Augmentation)——數據增強是指從給定數據導出的新數據的添加,這可能被證明對預測有益。例如,如果你使光線(xiàn)變亮,可能更容易在較暗的圖像中看到貓,或者例如,數字識別中的 9 可能會(huì )稍微傾斜或旋轉。在這種情況下,旋轉將解決問(wèn)題并提高我們的模型的準確性。通過(guò)旋轉或增亮,我們正在提高數據的質(zhì)量。這被稱(chēng)為數據增強。

    

 

  循環(huán)神經(jīng)網(wǎng)絡(luò )

    

 

  22、循環(huán)神經(jīng)元(Recurrent Neuron)——循環(huán)神經(jīng)元是在 T 時(shí)間內將神經(jīng)元的輸出發(fā)送回給它。如果你看圖,輸出將返回輸入 t 次。展開(kāi)的神經(jīng)元看起來(lái)像連接在一起的 t 個(gè)不同的神經(jīng)元。這個(gè)神經(jīng)元的基本優(yōu)點(diǎn)是它給出了更廣義的輸出。

  23、循環(huán)神經(jīng)網(wǎng)絡(luò )(RNN)——循環(huán)神經(jīng)網(wǎng)絡(luò )特別用于順序數據,其中先前的輸出用于預測下一個(gè)輸出。在這種情況下,網(wǎng)絡(luò )中有循環(huán)。隱藏神經(jīng)元內的循環(huán)使他們能夠存儲有關(guān)前一個(gè)單詞的信息一段時(shí)間,以便能夠預測輸出。隱藏層的輸出在 t 時(shí)間戳內再次發(fā)送到隱藏層。展開(kāi)的神經(jīng)元看起來(lái)像上圖。只有在完成所有的時(shí)間戳后,循環(huán)神經(jīng)元的輸出才能進(jìn)入下一層。發(fā)送的輸出更廣泛,以前的信息保留的時(shí)間也較長(cháng)。

  然后根據展開(kāi)的網(wǎng)絡(luò )將錯誤反向傳播以更新權重。這被稱(chēng)為通過(guò)時(shí)間的反向傳播(BPTT)。

  24、消失梯度問(wèn)題(Vanishing Gradient Problem)——激活函數的梯度非常小的情況下會(huì )出現消失梯度問(wèn)題。在權重乘以這些低梯度時(shí)的反向傳播過(guò)程中,它們往往變得非常小,并且隨著(zhù)網(wǎng)絡(luò )進(jìn)一步深入而"消失"。這使得神經(jīng)網(wǎng)絡(luò )忘記了長(cháng)距離依賴(lài)。這對循環(huán)神經(jīng)網(wǎng)絡(luò )來(lái)說(shuō)是一個(gè)問(wèn)題,長(cháng)期依賴(lài)對于網(wǎng)絡(luò )來(lái)說(shuō)是非常重要的。

  這可以通過(guò)使用不具有小梯度的激活函數 ReLu 來(lái)解決。

  25、激增梯度問(wèn)題(Exploding Gradient Problem)——這與消失的梯度問(wèn)題完全相反,激活函數的梯度過(guò)大。在反向傳播期間,它使特定節點(diǎn)的權重相對于其他節點(diǎn)的權重非常高,這使得它們不重要。這可以通過(guò)剪切梯度來(lái)輕松解決,使其不超過(guò)一定值。



評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>