<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 機器學(xué)習訓練中常見(jiàn)的問(wèn)題和挑戰！

機器學(xué)習訓練中常見(jiàn)的問(wèn)題和挑戰！

發(fā)布人：數據派THU 時(shí)間：2021-08-20 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

來(lái)源：Datawhale

由于我們的主要任務(wù)是選擇一種學(xué)習算法，并對某些數據進(jìn)行訓練，所以最可能出現的兩個(gè)問(wèn)題不外乎是“壞算法”和“壞數據”，本文主要從壞數據出發(fā)，帶大家了解目前機器學(xué)習面臨的常見(jiàn)問(wèn)題和挑戰，從而更好地學(xué)習機器學(xué)習理論。

一、訓練數據的數量不足

要教一個(gè)牙牙學(xué)語(yǔ)的小朋友什么是蘋(píng)果，你只需要指著(zhù)蘋(píng)果說(shuō)“蘋(píng)果”（可能需要重復這個(gè)過(guò)程幾次）就行了，然后孩子就能夠識別各種顏色和形狀的蘋(píng)果了，簡(jiǎn)直是天才！

機器學(xué)習還沒(méi)達到這一步，大部分機器學(xué)習算法需要大量的數據才能正常工作。即使是最簡(jiǎn)單的問(wèn)題，很可能也需要成千上萬(wàn)個(gè)示例，而對于諸如圖像或語(yǔ)音識別等復雜問(wèn)題，則可能需要數百萬(wàn)個(gè)示例（除非你可以重用現有模型的某些部分）。

數據的不合理有效性

在2001年發(fā)表的一篇著(zhù)名論文中，微軟研究員Michele Banko和Eric Brill表明，給定足夠的數據，截然不同的機器學(xué)習算法（包括相當簡(jiǎn)單的算法）在自然語(yǔ)言歧義消除這個(gè)復雜問(wèn)題上注8，表現幾乎完全一致（如下圖所示）。

數據與算法的重要性注

正如作者所說(shuō)：“這些結果表明，我們可能會(huì )重新思考如何在二者之間做權衡—將錢(qián)和時(shí)間花在算法的開(kāi)發(fā)上，還是花在語(yǔ)料庫的建設上?！?/p>

對復雜問(wèn)題而言，數據比算法更重要，這一想法被Peter Norvig等人進(jìn)一步推廣，于2009年發(fā)表論文“The Unreasonable Effectiveness of Data”注10。不過(guò)需要指出的是，中小型數據集依然非常普遍，獲得額外的訓練數據并不總是一件輕而易舉或物美價(jià)廉的事情，所以暫時(shí)先不要拋棄算法。

二、訓練數據不具代表性

為了很好地實(shí)現泛化，至關(guān)重要的一點(diǎn)是對于將要泛化的新示例來(lái)說(shuō)，訓練數據一定要非常有代表性。無(wú)論你使用的是基于實(shí)例的學(xué)習還是基于模型的學(xué)習，都是如此。

例如，前面用來(lái)訓練線(xiàn)性模型的國家數據集并不具備完全的代表性，有部分國家的數據缺失。下圖顯示了補充缺失國家信息之后的數據表現。

更具代表性的訓練樣本

如果你用這個(gè)數據集訓練線(xiàn)性模型，將會(huì )得到圖中的實(shí)線(xiàn)，而虛線(xiàn)表示舊模型。正如你所見(jiàn)，添加部分缺失的國家信息不僅顯著(zhù)地改變了模型，也更清楚地說(shuō)明這種簡(jiǎn)單的線(xiàn)性模型可能永遠不會(huì )那么準確?？雌饋?lái)，某些非常富裕的國家并不比中等富裕的國家更幸福（事實(shí)上，看起來(lái)甚至是不幸福），反之，一些貧窮的國家也似乎比許多富裕的國家更加幸福。

使用不具代表性的訓練集訓練出來(lái)的模型不可能做出準確的預估，尤其是針對那些特別貧窮或特別富裕的國家。

針對你想要泛化的案例使用具有代表性的訓練集，這一點(diǎn)至關(guān)重要。不過(guò)說(shuō)起來(lái)容易，做起來(lái)難：如果樣本集太小，將會(huì )出現采樣噪聲（即非代表性數據被選中）；而即便是非常大的樣本數據，如果采樣方式欠妥，也同樣可能導致非代表性數據集，這就是所謂的采樣偏差。

關(guān)于采樣偏差的一個(gè)示例

最著(zhù)名的采樣偏差的示例發(fā)生在1936年美國總統大選期間，蘭登對決羅斯福。Literary Digest當時(shí)舉行了一次大范圍的民意調查，向約1000萬(wàn)人發(fā)送郵件，并得到了240萬(wàn)個(gè)回復，因此做出了高度自信的預言—蘭登將獲得57%的選****。結果恰恰相反，羅斯福贏(yíng)得了62%的選****。問(wèn)題就在于Literary Digest的采樣方式：

首先，為了獲取發(fā)送民意調查的地址，Literary Digest采用了電話(huà)簿、雜志訂閱名單、俱樂(lè )部會(huì )員名單等類(lèi)似名簿。而所有這些名單上的人往往對富人有更大的偏好，也就更有可能支持共和黨（即蘭登）。

其次，收到民意調查郵件的人中，不到25%的人給出了回復。這再次引入了采樣偏差，那些不怎么關(guān)心政治的人、不喜歡Literary Digest的人以及其他的一些關(guān)鍵群體直接被排除在外了。這是一種特殊類(lèi)型的采樣偏差，叫作無(wú)反應偏差。

再舉一個(gè)示例，假設你想創(chuàng )建一個(gè)系統用來(lái)識別funk音樂(lè )視頻。構建訓練集的方法之一是直接在YouTube上搜索“funk music”，然后使用搜索結果的視頻。但是，這其實(shí)基于一個(gè)假設—YouTube的搜索引擎返回的視頻結果是所有能夠代表funk音樂(lè )的視頻。而實(shí)際的搜索結果可能會(huì )更偏向于當前流行的音樂(lè )人（如果你住在巴西，你會(huì )得到很多關(guān)于“funk carioca”的視頻，這聽(tīng)起來(lái)跟James Brown完全不是一回事）。另一方面，你還能怎樣獲得一個(gè)大的訓練集？

三、低質(zhì)量數據

顯然，如果訓練集滿(mǎn)是錯誤、異常值和噪聲（例如，低質(zhì)量的測量產(chǎn)生的數據），系統將更難檢測到底層模式，更不太可能表現良好。所以花時(shí)間來(lái)清理訓練數據是非常值得的投入。事實(shí)上，大多數數據科學(xué)家都會(huì )花費很大一部分時(shí)間來(lái)做這項工作。例如：

如果某些實(shí)例明顯是異常情況，那么直接將其丟棄，或者嘗試手動(dòng)修復錯誤，都會(huì )大有幫助。

如果某些實(shí)例缺少部分特征（例如，5%的顧客沒(méi)有指定年齡），你必須決定是整體忽略這些特征、忽略這部分有缺失的實(shí)例、將缺失的值補充完整（例如，填寫(xiě)年齡值的中位數），還是訓練一個(gè)帶這個(gè)特征的模型，再訓練一個(gè)不帶這個(gè)特征的模型。

四、無(wú)關(guān)特征

正如我們常說(shuō)的：垃圾入，垃圾出。只有訓練數據里包含足夠多的相關(guān)特征以及較少的無(wú)關(guān)特征，系統才能夠完成學(xué)習。一個(gè)成功的機器學(xué)習項目，其關(guān)鍵部分是提取出一組好的用來(lái)訓練的特征集。這個(gè)過(guò)程叫作特征工程，包括以下幾點(diǎn)：

特征選擇（從現有特征中選擇最有用的特征進(jìn)行訓練）。

特征提?。▽F有特征進(jìn)行整合，產(chǎn)生更有用的特征—正如前文提到的，降維算法可以提供幫助）。

通過(guò)收集新數據創(chuàng )建新特征。

現在我們已經(jīng)看了不少“壞數據”的示例，再來(lái)看幾個(gè)“壞算法”的示例。

五、過(guò)擬合訓練數據

假設你正在國外旅游，被出租車(chē)司機敲詐，你很可能會(huì )說(shuō)，那個(gè)國家的所有出租車(chē)司機都是強盜。過(guò)度概括是我們人類(lèi)常做的事情，不幸的是，如果我們不小心，機器很可能也會(huì )陷入同樣的陷阱。在機器學(xué)習中，這稱(chēng)為過(guò)擬合，也就是指模型在訓練數據上表現良好，但是泛化時(shí)卻不盡如人意。下圖顯示了一個(gè)訓練數據過(guò)擬合的高階多項式生活滿(mǎn)意度模型。雖然它在訓練數據上的表現比簡(jiǎn)單的線(xiàn)性模型要好得多，但是你真的敢相信它的預測嗎？

過(guò)擬合訓練數據

雖然諸如深度神經(jīng)網(wǎng)絡(luò )這類(lèi)的復雜模型可以檢測到數據中的微小模式，但是如果訓練集本身是有噪聲的，或者數據集太?。ㄒ肓瞬蓸釉肼暎?，那么很可能會(huì )導致模型檢測噪聲本身的模式。很顯然，這些模式不能泛化至新的實(shí)例。舉例來(lái)說(shuō)，假設你給生活滿(mǎn)意度模型提供了更多其他的屬性，包括一些不具信息的屬性（例如國家名）。在這種情況下，一個(gè)復雜模型可能會(huì )檢測到這樣的事實(shí)模式：訓練數據中，名字中帶有字母w的國家，如新西蘭（New Zealand，生活滿(mǎn)意度為7.3）、挪威（Norway，生活滿(mǎn)意度為7.4）、瑞典（Sweden，生活滿(mǎn)意度為7.2）和瑞士（Switzerland，生活滿(mǎn)意度為7.5），生活滿(mǎn)意度均大于7。當把這個(gè)w滿(mǎn)意度規則泛化到盧旺達（Rwanda）或津巴布韋（Zim-babwe）時(shí)，你對結果有多大的自信？顯然，訓練數據中的這個(gè)模式僅僅是偶然產(chǎn)生的，但是模型無(wú)法判斷這個(gè)模式是真實(shí)的還是噪聲產(chǎn)生的結果。

當模型相對于訓練數據的數量和噪度都過(guò)于復雜時(shí)，會(huì )發(fā)生過(guò)擬合?？赡艿慕鉀Q方案如下。

簡(jiǎn)化模型：可以選擇較少參數的模型（例如，選擇線(xiàn)性模型而不是高階多項式模型）也可以減少訓練數據中的屬性數量，或者是約束模型。

收集更多的訓練數據。

減少訓練數據中的噪聲（例如，修復數據錯誤和消除異常值）。

通過(guò)約束模型使其更簡(jiǎn)單，并降低過(guò)擬合的風(fēng)險，這個(gè)過(guò)程稱(chēng)為正則化。例如，我們前面定義的線(xiàn)性模型有兩個(gè)參數：θ0和θ1。因此，該算法在擬合訓練數據時(shí)，調整模型的自由度就等于2，它可以調整線(xiàn)的高度（θ0）和斜率（θ1）。如果我們強行讓θ1 = 0，那么算法的自由度將會(huì )降為1，并且擬合數據將變得更為艱難—它能做的全部就只是將線(xiàn)上移或下移來(lái)盡量接近訓練實(shí)例，最后極有可能停留在平均值附近。這確實(shí)太簡(jiǎn)單了！如果我們允許算法修改θ1，但是我們強制它只能是很小的值，那么算法的自由度將位于1和2之間，這個(gè)模型將會(huì )比自由度為2的模型稍微簡(jiǎn)單一些，同時(shí)又比自由度為1的模型略微復雜一些。你需要在完美匹配數據和保持模型簡(jiǎn)單之間找到合適的平衡點(diǎn)，從而確保模型能夠較好地泛化。

下圖顯示了三個(gè)模型。點(diǎn)線(xiàn)表示的是在以圓圈表示的國家上訓練的原始模型（沒(méi)有正方形表示的國家），虛線(xiàn)是我們在所有國家（圓圈和方形）上訓練的第二個(gè)模型，實(shí)線(xiàn)是用與第一個(gè)模型相同的數據訓練的模型，但是有一個(gè)正則化約束?？梢钥吹?，正則化強制了模型的斜率較?。涸撃Ｐ团c訓練數據（圓圈）的擬合不如第一個(gè)模型，但它實(shí)際上更好地泛化了它沒(méi)有在訓練時(shí)看到的新實(shí)例（方形）。

在學(xué)習時(shí)，應用正則化的程度可以通過(guò)一個(gè)超參數來(lái)控制。超參數是學(xué)習算法（不是模型）的參數。因此，它不受算法本身的影響。超參數必須在訓練之前設置好，并且在訓練期間保持不變。如果將正則化超參數設置為非常大的值，會(huì )得到一個(gè)幾乎平坦的模型（斜率接近零）。學(xué)習算法雖然肯定不會(huì )過(guò)擬合訓練數據，但是也更加不可能找到一個(gè)好的解決方案。調整超參數是構建機器學(xué)習系統非常重要的組成部分。

正則化降低了過(guò)擬合的風(fēng)險

六、欠擬合訓練數據

你可能已經(jīng)猜到了，欠擬合和過(guò)擬合正好相反。它的產(chǎn)生通常是因為對于底層的數據結構來(lái)說(shuō)，你的模型太過(guò)簡(jiǎn)單。例如，用線(xiàn)性模型來(lái)描述生活滿(mǎn)意度就屬于欠擬合?，F實(shí)情況遠比模型復雜得多，所以即便是對于用來(lái)訓練的示例，該模型產(chǎn)生的預測都一定是不準確的。

解決這個(gè)問(wèn)題的主要方式有：

選擇一個(gè)帶有更多參數、更強大的模型。

給學(xué)習算法提供更好的特征集（特征工程）。

減少模型中的約束（例如，減少正則化超參數）。

七、全局總結

現在我們對機器學(xué)習已經(jīng)有了一定了解。我們暫且退后一步，縱觀(guān)一下全局：

機器學(xué)習是關(guān)于如何讓機器可以更好地處理某些特定任務(wù)的理論，它從數據中學(xué)習，而無(wú)須清晰地編碼規則。

機器學(xué)習系統有很多類(lèi)型：有監督和無(wú)監督，批量的和在線(xiàn)的，基于實(shí)例的和基于模型的，等等。

在一個(gè)機器學(xué)習項目中，你從訓練集中采集數據，然后將數據交給學(xué)習算法來(lái)計算。如果算法是基于模型的，它會(huì )調整一些參數來(lái)將模型適配于訓練集（即對訓練集本身做出很好的預測），然后算法就可以對新的場(chǎng)景做出合理的預測。如果算法是基于實(shí)例的，它會(huì )記住這些示例，并根據相似度度量將它們與所學(xué)的實(shí)例進(jìn)行比較，從而泛化這些新實(shí)例。

如果訓練集的數據太少或數據代表性不夠，包含太多噪聲或者被一些無(wú)關(guān)特征污染（垃圾進(jìn)，垃圾出），那么系統將無(wú)法很好地工作。最后，你的模型既不能太簡(jiǎn)單（會(huì )導致欠擬合），也不能太復雜（會(huì )導致過(guò)擬合）。

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 機器學(xué)習

相關(guān)推薦

美光內存與存儲是實(shí)現數字孿生的理想之選

網(wǎng)絡(luò )與存儲數字孿生 DRAM 機器學(xué)習 | 2024-02-06

Microchip在人工智能/機器學(xué)習方面的對策

嵌入式系統 Microchip 人工智能機器學(xué)習 | 2023-11-20

分享《機器學(xué)習算法原理與編程實(shí)踐》電子版

不問(wèn)舊夢(mèng) | 2015-12-04

EEPW2019年5月刊(邊緣設備的機器學(xué)習)

資源下載邊緣設備機器學(xué)習 | 2019-05-23

FPGA學(xué)習——機器學(xué)習的幾種算法總結

molly931018 | 2014-10-15

從免費的物聯(lián)網(wǎng)防火墻hihttps談機器學(xué)習之樣本采集

hihttps | 2020-02-09

基于機器學(xué)習的語(yǔ)音驅動(dòng)人臉動(dòng)畫(huà)方法

資源下載機器學(xué)習人臉動(dòng)畫(huà) 語(yǔ)音驅動(dòng) | 2007-04-19

美光高性能內存與存儲，推動(dòng) AI 豐富殘障人士生活體驗

網(wǎng)絡(luò )與存儲語(yǔ)音識別生成式AI 機器學(xué)習內存 | 2023-12-07

【轉】淺談量子機器學(xué)習(QML)

浮沉1988 | 2022-05-17

JFrog助力開(kāi)發(fā)者實(shí)現安全AI之旅，與DataBricks的MLflow集成實(shí)現無(wú)縫機器學(xué)習生命周期

智能計算 JFrog 安全AI DataBricks MLflow 機器學(xué)習 | 2024-05-08

恩智浦與NVIDIA合作：將TAO工具套件與eIQ開(kāi)發(fā)環(huán)境無(wú)縫集成，加速人工智能部署！

智能計算機器學(xué)習開(kāi)發(fā)環(huán)境模型部署 | 2024-07-18

如何使用機器學(xué)習創(chuàng )建連續色彩控制

big白菜 | 2018-11-14

模糊機器學(xué)習

資源下載機器學(xué)習模糊數學(xué) | 2019-06-25

機器學(xué)習常用術(shù)語(yǔ)匯總

機器學(xué)習 | 2024-06-04

英飛凌推出業(yè)界首款 USB 10Gbps 外設控制器EZ-USB? FX10

智能計算 EZ-USB 機器學(xué)習數據采集高速接口 | 2024-01-17

英飛凌推出全新PSoC Edge產(chǎn)品系列,擴展微控制器產(chǎn)品組合

嵌入式系統英飛凌 PSoC Edge 微控制器 MCU 機器學(xué)習 | 2023-11-29

機器學(xué)習常用術(shù)語(yǔ)匯總 (中英對照）

機器學(xué)習 | 2024-06-04

《機器學(xué)習算法原理與編程實(shí)踐》電子版

資源下載機器學(xué)習編程實(shí)踐 | 2015-12-04

EEPW2018年5月刊(機器學(xué)習＆人工智能)

資源下載機器學(xué)習人工智能 | 2018-05-10

蘋(píng)果發(fā)布DeepPCR機器學(xué)習算法：加速神經(jīng)網(wǎng)絡(luò )的推理和訓練

蘋(píng)果 DeepPCR 機器學(xué)習算法神經(jīng)網(wǎng)絡(luò ) | 2023-12-20

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>