科普:12大關(guān)鍵詞讓你了解機器學(xué)習
隨著(zhù)人工智能(AI)技術(shù)對各行各業(yè)有越來(lái)越深入的影響,我們也更多地在新聞或報告中聽(tīng)到“機器學(xué)習”、“深度學(xué)習”、“增強學(xué)習”、“神經(jīng)網(wǎng)絡(luò )”等詞匯,對于非專(zhuān)業(yè)人士來(lái)說(shuō)略為玄幻。這篇文章為讀者梳理了包括這些在內的12個(gè)關(guān)鍵詞,希望幫助讀者更清晰地理解,這項人工智能技術(shù)的內涵和潛能。
本文引用地址:http://dyxdggzs.com/article/201710/368003.htm1、機器學(xué)習
湯姆·米歇爾教授任職于卡內基梅隴大學(xué)計算機學(xué)院、機器學(xué)習系,根據他在《機器學(xué)習》一書(shū)中的定義,機器學(xué)習是“研究如何打造可以根據經(jīng)驗自動(dòng)改善的計算機程序”。機器學(xué)習在本質(zhì)上來(lái)說(shuō)是跨學(xué)科的,使用了計算機科學(xué)、統計學(xué)和人工智能以及其他學(xué)科的知識。機器學(xué)習研究的主要產(chǎn)物是算法,可以幫助基于經(jīng)驗的自動(dòng)改善。這些算法可以在各個(gè)行業(yè)有廣泛應用,包括計算機視覺(jué)、人工智能和數據挖掘。
2、分類(lèi)
分類(lèi)的含義是,打造模型,將數據分類(lèi)進(jìn)入不同的類(lèi)別。這些模型的打造方式,是輸入一個(gè)訓練數據庫,其中有預先標記好的類(lèi)別,供算法進(jìn)行學(xué)習。然后,在模型中輸入類(lèi)別未經(jīng)標記的數據庫,讓模型基于它從訓練數據庫中所學(xué)到的知識,來(lái)預測新數據的類(lèi)別。
因為這類(lèi)的算法需要明確的類(lèi)別標記,因此,分類(lèi)算是“監督學(xué)習”的一種形式。
3、回歸
回歸是與分類(lèi)緊密聯(lián)系在一起的。分類(lèi)是預測離散的類(lèi)別,而回歸則適用的情況,是當預測“類(lèi)別”由連續的數字組成。線(xiàn)性回歸就是回歸技術(shù)的一個(gè)例子。
圖片來(lái)源:KDNuggets
4、聚集
聚集是用來(lái)分析不含有預先標記過(guò)的類(lèi)別的數據,甚至連類(lèi)別特性都沒(méi)有標記過(guò)。數據個(gè)體的分組原則是這樣的一個(gè)概念:最大化組內相似度、最小化組與組之間的相似度。這就出現了聚集算法,識別非常相似的數據并將其放在一組,而未分組的數據之間則沒(méi)那么相似。K-means聚集也許是聚集算法中最著(zhù)名的例子。
由于聚集不需要預先將類(lèi)別進(jìn)行標記,它算是“無(wú)監督學(xué)習”的一種形式,意味著(zhù)算法通過(guò)觀(guān)察進(jìn)行學(xué)習,而不是通過(guò)案例進(jìn)行學(xué)習。
5、關(guān)聯(lián)
要解釋關(guān)聯(lián),最簡(jiǎn)單的辦法是引入“購物籃分析”,這是一個(gè)比較著(zhù)名的典型例子。購物籃分析是假設一個(gè)購物者在購物籃中放入了各種各樣的物品(實(shí)體或者虛擬),而目標是識別各種物品之間的關(guān)聯(lián),并為比較分配支持和置信度測量(編者注:置信度是一個(gè)統計學(xué)概念,意味著(zhù)某個(gè)樣本在總體參數的區間估計)。這其中的價(jià)值在于交叉營(yíng)銷(xiāo)和消費者行為分析。關(guān)聯(lián)是購物籃分析的一種概括歸納,與分類(lèi)相似,除了任何特性都可以在關(guān)聯(lián)中被預測到。 Apriori算法被稱(chēng)為最知名的關(guān)聯(lián)算法。
關(guān)聯(lián)也屬于“無(wú)監督學(xué)習”的一種形式。
決策樹(shù)的例子,分步解決并分類(lèi)的方式帶來(lái)了樹(shù)形結構。圖片來(lái)源:SlideShare。
6、決策樹(shù)
決策樹(shù)是一種自上而下、分步解決的遞歸分類(lèi)器。決策樹(shù)通常來(lái)說(shuō)由兩種任務(wù)組成:歸納和修剪。歸納是用一組預先分類(lèi)的數據作為輸入,判斷最好用哪些特性來(lái)分類(lèi),然后將數據庫分類(lèi),基于其產(chǎn)生的分類(lèi)數據庫再進(jìn)行遞歸,直到所有的訓練數據都完成分類(lèi)。打造樹(shù)的時(shí)候,我們的目標是找到特性來(lái)分類(lèi),從而創(chuàng )造出最純粹的子節,這樣,要將數據庫中所有數據分類(lèi),只需要最少的分類(lèi)次數。這種純度是以信息的概念來(lái)衡量。
一個(gè)完整的決策樹(shù)模型可能過(guò)于復雜,包含不必要的結構,而且很難解讀。因而我們還需要“修剪”這個(gè)環(huán)節,將不需要的結構從決策樹(shù)中去除,讓決策樹(shù)更加高效、簡(jiǎn)單易讀并且更加精確。
右上箭頭:最大間隔超平面。左下箭頭:支持向量。圖片來(lái)源:KDNuggets。
7、支持向量機(SVM)
SVM可以分類(lèi)線(xiàn)性與非線(xiàn)性數據。SVM的原理是將訓練數據轉化進(jìn)入更高的維度,再檢查這個(gè)維度中的最優(yōu)間隔距離,或者不同分類(lèi)中的邊界。在SVM中,這些邊界被稱(chēng)為“超平面”,通過(guò)定位支持向量來(lái)劃分,或者通過(guò)最能夠定義類(lèi)型的個(gè)例及其邊界。邊界是與超平面平行的線(xiàn)條,定義為超平面及其支持向量之間的最短距離。
SVM的宏偉概念概括起來(lái)就是:如果有足夠多的維度,就一定能發(fā)現將兩個(gè)類(lèi)別分開(kāi)的超平面,從而將數據庫成員的類(lèi)別進(jìn)行非線(xiàn)性化。當重復足夠多的次數,就可以生成足夠多的超平面,在N個(gè)空間維度中,分離所有的類(lèi)別。
8、神經(jīng)網(wǎng)絡(luò )
神經(jīng)網(wǎng)絡(luò )是以人類(lèi)大腦為靈感的算法,雖然,這些算法對真實(shí)人腦功能的模擬程度有多少,還存在很多的爭議,我們還沒(méi)法說(shuō)這些算法真正模擬了人類(lèi)大腦。神經(jīng)網(wǎng)絡(luò )是由無(wú)數個(gè)相互連接的概念化人工神經(jīng)元組成,這些神經(jīng)元在互相之間傳送數據,有不同的相關(guān)權重,這些權重是基于神經(jīng)網(wǎng)絡(luò )的“經(jīng)驗”而定的。“神經(jīng)元”有激活閾值,如果各個(gè)神經(jīng)元權重的結合達到閾值,神經(jīng)元就會(huì )“激發(fā)”。神經(jīng)元激發(fā)的結合就帶來(lái)了“學(xué)習”。
圖片來(lái)源:KDNuggets。
9、深度學(xué)習
深度學(xué)習相對來(lái)說(shuō)還是個(gè)比較新的詞匯,雖然在網(wǎng)絡(luò )搜索大熱之前就已經(jīng)有了這個(gè)詞匯。這個(gè)詞匯在研究和業(yè)界都名聲大噪,主要是因為其他一系列不同領(lǐng)域的巨大成功。深度學(xué)習是應用深度神經(jīng)網(wǎng)絡(luò )技術(shù)——具有多個(gè)隱藏神經(jīng)元層的神經(jīng)網(wǎng)絡(luò )架構——來(lái)解決問(wèn)題。深度學(xué)習是一個(gè)過(guò)程,正如使用了深度神經(jīng)網(wǎng)絡(luò )架構的數據挖掘,這是一種獨特的機器學(xué)習算法。
10、增強學(xué)習
對于“增強學(xué)習”最好的描述來(lái)自劍橋大學(xué)教授、微軟研究科學(xué)家ChristopherBishop,他用一句話(huà)精確概括:“增強學(xué)習是在某一情景中尋找最適合的行為,從而最大化獎勵。”增強學(xué)習中,并沒(méi)有給出明確的目標;機器必須通過(guò)不斷試錯的方式進(jìn)行學(xué)習。我們來(lái)用經(jīng)典的馬里奧游戲舉個(gè)例子。通過(guò)不斷試錯,增強學(xué)習算法可以判斷某些行為、也就是某些游戲按鍵可以提升玩家的游戲表現,在這里,試錯的目標是最優(yōu)化的游戲表現。
K層交叉檢驗的例子,在每一輪使用不同的數據進(jìn)行測試(藍色為訓練數據、黃色為測試數據),方框下為每一輪的驗證精度。最終的驗證精度是10輪測試的平均數。圖片來(lái)源:GitHub。
11、K層交叉檢驗
交叉檢驗是一種打造模型的方法,通過(guò)去除數據庫中K層中的一層,訓練所有K減1層中的數據,然后用剩下的第K層來(lái)進(jìn)行測驗。然后,再將這個(gè)過(guò)程重復K次,每一次使用不同層中的數據測試,將錯誤結果在一個(gè)整合模型中結合和平均起來(lái)。這樣做的目的是生成最精確的預測模型。
12、貝葉斯
當我們討論概率的時(shí)候,有兩個(gè)最主流的學(xué)派:經(jīng)典學(xué)派概率論看重隨機事件發(fā)生的頻率。與之對比,貝葉斯學(xué)派認為概率的目標是將未確定性進(jìn)行量化,并隨著(zhù)額外數據的出現而更新概率。如果這些概率都延伸到真值,我們就有了不同確定程度的“學(xué)習”。
評論