<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > 機器學(xué)習的關(guān)鍵點(diǎn)是什么數據量比算法還重要

機器學(xué)習的關(guān)鍵點(diǎn)是什么數據量比算法還重要

作者：時(shí)間：2018-11-21 來(lái)源：elecfans

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

　　機器學(xué)習算法可以通過(guò)概括示例來(lái)確定如何執行重要任務(wù)。手動(dòng)編程很難完成這樣的目標，所以機器學(xué)習通常是可行且成本有效的。隨著(zhù)更多數據的出現，可以解決更加雄心勃勃的問(wèn)題。因此，機器學(xué)習被廣泛應用于計算機真誠等領(lǐng)域。然而，開(kāi)發(fā)成功的機器學(xué)習應用程序需要大量的“黑色藝術(shù)”，這在教科書(shū)中很難找到。

本文引用地址：http://dyxdggzs.com/article/201811/394640.htm

　　1. 學(xué)習=表示+評價(jià)+優(yōu)化

　　所有的機器學(xué)習的算法通常包括三個(gè)組成部分：

　　表示：一個(gè)分類(lèi)器必須用計算機能夠處理的一些正式語(yǔ)言來(lái)表示。相反，為學(xué)習者選擇一種表示方式就等同于選擇一組可以學(xué)習的分類(lèi)器。這個(gè)集合被稱(chēng)為學(xué)習者的假設空間。如果一個(gè)分類(lèi)器不在假設空間中，它就不能被學(xué)習。一個(gè)相關(guān)的問(wèn)題是：如何表示輸入，比如使用哪種特征。

　　評價(jià)：要區分好的分類(lèi)器和壞的分類(lèi)器，需要一個(gè)評價(jià)函數。算法內部使用的評估函數與分類(lèi)器外部使用的評價(jià)函數可能不同，其主要是為了便于優(yōu)化，以及下一節中我們要討論的問(wèn)題。

　　優(yōu)化：最后，我們需要在語(yǔ)言的分類(lèi)器中找到得分最高的一種方法。優(yōu)化技術(shù)的選擇是提高學(xué)習者效率的關(guān)鍵，同時(shí)也有助于確定分類(lèi)器的評價(jià)函數是否具有多個(gè)最優(yōu)值。初學(xué)者開(kāi)始的時(shí)候使用現成的優(yōu)化器是很常見(jiàn)的，不過(guò)這些優(yōu)化器會(huì )被專(zhuān)門(mén)設計的優(yōu)化器取代。

　　2. “泛化能力”很關(guān)鍵，“測試數據”驗證至關(guān)重要!

　　機器學(xué)習的主要目標是對訓練集之外的樣本進(jìn)行泛化。因為無(wú)論有多少數據，都不太可能在測試中再次看到完全相同的例子。在訓練集上具有良好表現很容易。機器學(xué)習初學(xué)者最常犯的錯誤是把模型放在訓練數據中進(jìn)行測試，從而產(chǎn)生成功的錯覺(jué)。如果被選擇的分類(lèi)器在新的數據上進(jìn)行測試，一般情況，結果往往和隨機猜測相差無(wú)幾。所以，如果你雇傭他人建立分類(lèi)器，一定要留一些數據給你自己，以便在他們給你的分類(lèi)器中進(jìn)行測試。相反，如果有人雇傭你建立一個(gè)分類(lèi)器，請保留一部分數據對你的分類(lèi)器進(jìn)行最終測試。

　　3. 僅有數據是不夠的，知識相結合效果更好!

　　把泛化能力作為目標，會(huì )又另一個(gè)后果：只有數據是不夠的，無(wú)論你擁有多少數據。這是否讓人沮喪。那么，我們怎么能奢求它學(xué)到東西呢?不過(guò)，現實(shí)世界中我們想學(xué)習的函數并不都是從數學(xué)上可能的函數中提取出來(lái)的!實(shí)際上，使用一般假設——例如平滑性、相似樣本有相似分類(lèi)、有限的依賴(lài)性或有限復雜度——往往能做得足夠好，這也正是機器學(xué)習能如此成功的大部分原因。正如演繹一樣，歸納(訓練模型所做的)是一個(gè)知識杠桿——它將少量知識輸入轉化為大量知識輸出。歸納是一個(gè)比演繹更為強大的杠桿，僅需更少的知識就能產(chǎn)出有用的結果。不過(guò)，它仍然需要大于零的知識輸入才能工作。正如任何一個(gè)杠桿一樣，輸入得越多，得到的也越多。

　　這樣回想起來(lái)，訓練過(guò)程中對知識的需求沒(méi)什么好驚訝的。機器學(xué)習并非魔術(shù)，它無(wú)法做到無(wú)中生有，它所做的是舉一反三。如同所有的工程一樣，編程需要做大量的工作：我們必須從頭開(kāi)始構建所有的東西。訓練的過(guò)程更像是耕種，其中大部分工作是自然完成的。農民將種子與營(yíng)養物質(zhì)結合起來(lái)，種植作物。訓練模型將知識與數據結合起來(lái)，編寫(xiě)程序。

　　4. “過(guò)擬合”讓機器學(xué)習效果產(chǎn)生錯覺(jué)!

　　如果我們所擁有的知識和數據不足以完全確定正確的分類(lèi)器，分類(lèi)器(或其中的一部分)就可能產(chǎn)生「錯覺(jué)」。所獲得的分類(lèi)器并不是基于現實(shí)，只是對數據的隨機性進(jìn)行編碼。這個(gè)問(wèn)題被稱(chēng)為過(guò)擬合，是機器學(xué)習中棘手的難題。如果你的訓練模型所輸出的分類(lèi)器在訓練數據上準確率是 100%，但在測試數據上準確率只有 50%，那么實(shí)際上，該分類(lèi)器在兩個(gè)集合上的輸出準確率總體可能約為 75%，它發(fā)生了過(guò)擬合現象。

　　在機器學(xué)習領(lǐng)域，人人都知道過(guò)擬合。但是過(guò)擬合有多種形式，人們往往不能立刻意識到。理解過(guò)擬合的一種方法是將泛化的誤差進(jìn)行分解，分為偏差和方差。偏差是模型不斷學(xué)習相同錯誤的傾向。而方差指的是不管真實(shí)信號如何，模型學(xué)習隨機信號的傾向。線(xiàn)性模型有很高的偏差，因為當兩個(gè)類(lèi)之間的邊界不是一個(gè)超平面時(shí)，模型無(wú)法做出調整。決策樹(shù)不存在這個(gè)問(wèn)題，因為它們可以表征任何布爾函數。但是另一方面，決策樹(shù)可能方差很大：如果在不同訓練集上訓練，生成的決策樹(shù)通常差異很大，但事實(shí)上它們應該是相同的。

　　交叉驗證可以幫助對抗過(guò)擬合，例如，通過(guò)使用交叉驗證來(lái)選擇決策樹(shù)的最佳規模用于訓練。但這不是萬(wàn)能的，因為如果我們用交叉驗證生成太多的參數選擇，它本身就會(huì )開(kāi)始產(chǎn)生過(guò)擬合現象。

　　除交叉驗證之外，還有很多方法可以解決過(guò)擬合問(wèn)題。最流行的是在評估函數中增加一個(gè)正則化項。舉個(gè)例子，這樣一來(lái)就能懲罰含更多項的分類(lèi)器，從而有利于生成參數結構更簡(jiǎn)單的分類(lèi)器，并減少過(guò)擬合的空間。另一種方法是在添加新的結構之前，進(jìn)行類(lèi)似卡方檢驗的統計顯著(zhù)性檢驗，在添加新結構前后確定類(lèi)的分布是否真的具有差異。當數據非常少時(shí)，這些技術(shù)特別有用。盡管如此，你應該對某種方法完美解決了過(guò)擬合問(wèn)題的說(shuō)法持懷疑態(tài)度。減少過(guò)擬合(方差)很容易讓分類(lèi)器陷入與之相對的欠擬合誤差(偏差)中去。如果要同時(shí)避免這兩種情況，需要訓練一個(gè)完美的分類(lèi)器。在沒(méi)有先驗信息的情況下，沒(méi)有任何一種方法總能做到最好(天下沒(méi)有免費的午餐)。

上一頁(yè) 1 2 下一頁(yè)

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 機器學(xué)習 算法

評論

相關(guān)推薦

計算機科學(xué)與技術(shù)反思錄(2)

liujt_ic | 2003-06-06

機器學(xué)習常用術(shù)語(yǔ)匯總 (中英對照）

機器學(xué)習 | 2024-06-04

數字PID控制算法之一

資源下載 PID PID控制算法 | 2007-12-28

超強整理！電機控制算法

電機算法 BLDC | 2024-05-21

求FSK信號的解調算法，主要是鐵路上的移頻信號!

dhlwq007 | 2004-08-04

加密算法之MD5算法

資源下載加密算法加密算法 MD5算法 | 2007-02-16

簡(jiǎn)單實(shí)用的單片機CRC 快速算法

資源下載 CRC 算法單片機 | 2007-02-16

vxwokrs下靜態(tài)圖像壓縮算法（上）

C-- | 2004-07-26

SHIPT算法擠壓了外包工人如何對雇主進(jìn)行審計

智能計算 SHIPT 算法算法管理 | 2024-07-04

機器學(xué)習常用術(shù)語(yǔ)匯總

機器學(xué)習 | 2024-06-04

目標跟蹤算法在紅外熱成像跟蹤技術(shù)上的應用

設計方案目標跟蹤算法紅外成像技術(shù)上應用 | 2009-09-03

美光內存與存儲是實(shí)現數字孿生的理想之選

網(wǎng)絡(luò )與存儲數字孿生 DRAM 機器學(xué)習 | 2024-02-06

恩智浦與NVIDIA合作：將TAO工具套件與eIQ開(kāi)發(fā)環(huán)境無(wú)縫集成，加速人工智能部署！

智能計算機器學(xué)習開(kāi)發(fā)環(huán)境模型部署 | 2024-07-18

蘋(píng)果發(fā)布DeepPCR機器學(xué)習算法：加速神經(jīng)網(wǎng)絡(luò )的推理和訓練

蘋(píng)果 DeepPCR 機器學(xué)習算法神經(jīng)網(wǎng)絡(luò ) | 2023-12-20

采用Mean-Shift和Camshift算法相結合的火焰視頻圖像跟蹤設計

設計方案采用 Mean-Shift Camshift 算法相結合 | 2011-06-27

英飛凌推出業(yè)界首款 USB 10Gbps 外設控制器EZ-USB? FX10

智能計算 EZ-USB 機器學(xué)習數據采集高速接口 | 2024-01-17

JFrog助力開(kāi)發(fā)者實(shí)現安全AI之旅，與DataBricks的MLflow集成實(shí)現無(wú)縫機器學(xué)習生命周期

智能計算 JFrog 安全AI DataBricks MLflow 機器學(xué)習 | 2024-05-08

[轉帖]us/os就緒表的維護算法分析

amine | 2002-05-17

無(wú)線(xiàn)傳感器網(wǎng)絡(luò )低功耗分簇路由算法設計

設計方案無(wú)線(xiàn) 傳感器網(wǎng)絡(luò ) 功耗路由算法設計 | 2012-09-07

PID算法

資源下載 PID 算法誤差 | 2007-02-16

數字PID控制及其改進(jìn)算法的應用

設計方案數字控制及其改進(jìn) 算法應用 | 2011-05-11

基于LPC2138的血壓測量算法開(kāi)發(fā)平臺電路圖

設計方案基于 LPC2138 血壓測量算法開(kāi)發(fā)平臺電路圖 | 2010-01-20

“貓和老鼠”的較量軟件破解大揭密（ZT）

武松打虎 | 2004-05-21

CRC算法原理及C語(yǔ)言實(shí)現

資源下載 CRC 算法 C語(yǔ)言 | 2007-02-16

嵌入式開(kāi)發(fā)者都該了解的十大算法

嵌入式開(kāi)發(fā)者算法 | 2024-07-16

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>