這7 個(gè)深度學(xué)習實(shí)用技巧,你掌握了嗎?
前幾天,深度學(xué)習工程師George Seif發(fā)表了一篇博文,總結了7個(gè)深度學(xué)習的技巧,主要從提高深度學(xué)習模型的準確性和速度兩個(gè)角度來(lái)分析這些小技巧。在使用深度學(xué)習的時(shí)候,我們不能僅僅把它看成一個(gè)黑盒子,因為網(wǎng)絡(luò )設計、訓練過(guò)程、數據處理等很多步驟都需要精心的設計。作者分別介紹了7個(gè)非常實(shí)用小技巧:數據量、優(yōu)化器選擇、處理不平衡數據、遷移學(xué)習、數據增強、多個(gè)模型集成、加快剪枝。相信掌握了這7個(gè)技巧,能讓你在實(shí)際工作中事半功倍!
本文引用地址:http://dyxdggzs.com/article/201802/375972.htm

7 Practical Deep Learni ng Tips
7個(gè)實(shí)用的深度學(xué)習技巧
深度學(xué)習已經(jīng)成為解決許多具有挑戰性問(wèn)題的方法。 在目標檢測,語(yǔ)音識別和語(yǔ)言翻譯方面,深度學(xué)習是迄今為止表現最好的方法。 許多人將深度神經(jīng)網(wǎng)絡(luò )(DNNs)視為神奇的黑盒子,我們輸入一些數據,出來(lái)的就是我們的解決方案! 事實(shí)上,事情要復雜得多。
在設計和應用中,把DNN用到一個(gè)特定的問(wèn)題上可能會(huì )遇到很多挑戰。 為了達到實(shí)際應用所需的性能標準,數據處理、網(wǎng)絡(luò )設計、訓練和推斷等各個(gè)階段的正確設計和執行至關(guān)重要。 在這里,我將與大家分享7個(gè)實(shí)用技巧,讓你的深度神經(jīng)網(wǎng)絡(luò )發(fā)揮最大作用。

▌ 1-數據,數據,數據
這不是什么大秘密,深度學(xué)習機需要大量的“燃料”, 那“燃料”就是數據。擁有的標簽數據越多,模型的表現就越好。 更多數據產(chǎn)生能更好性能的想法,已經(jīng)由谷歌的大規模數據集(有3億圖像)證明!為了感受數據帶給深度學(xué)習模型的性能提升,在部署Deep Learning模型時(shí),你應該不斷地為其提供更多的數據和微調以繼續提高其性能。 Feed the beast:如果你想提高你的模型的性能,就要提供更多的數據!

圖顯示數據量的增加會(huì )得到更好的性能
▌ 2-你應該選擇哪一個(gè)優(yōu)化器
多年來(lái),已經(jīng)開(kāi)發(fā)了許多梯度下降優(yōu)化算法,他們各有其優(yōu)缺點(diǎn)。 一些最流行的方法如下:
Stochastic Gradient Descent (SGD) with momentum
Adam
RMSprop
Adadelta
RMSprop,Adadelta和Adam被認為是自適應優(yōu)化算法,因為它們會(huì )自動(dòng)更新學(xué)習率。 使用SGD時(shí),您必須手動(dòng)選擇學(xué)習率和動(dòng)量參數,通常會(huì )隨著(zhù)時(shí)間的推移而降低學(xué)習率。
在實(shí)踐中,自適應優(yōu)化器傾向于比SGD更快地收斂, 然而,他們的最終表現通常稍差。 SGD通常會(huì )達到更好的minimum,從而獲得更好的最終準確性。但這可能需要比某些優(yōu)化程序長(cháng)得多的時(shí)間。 它的性能也更依賴(lài)于強大的初始化和學(xué)習率衰減時(shí)間表,這在實(shí)踐中可能非常困難。
因此,如果你需要一個(gè)優(yōu)化器來(lái)快速得到結果,或者測試一個(gè)新的技術(shù)。 我發(fā)現Adam
很實(shí)用,因為它對學(xué)習率并不是很敏感。 如果您想要獲得絕對最佳的表現,請使用SGD + Momentum,并調整學(xué)習率,衰減和動(dòng)量值來(lái)使性能最優(yōu)化。
評論