【E問(wèn)E答】什么是數據科學(xué)、機器學(xué)習和AI?它們有啥區別?
當我進(jìn)行以數據科學(xué)家進(jìn)行自我介紹時(shí),經(jīng)常會(huì )被問(wèn)道:“數據科學(xué)和機器學(xué)習有什么區別?”或者“這是不是意味著(zhù)你在研究人工智能?”所以我將通過(guò)本文進(jìn)行回答。
本文引用地址:http://dyxdggzs.com/article/201801/374798.htm這些領(lǐng)域確實(shí)有很多重疊的地方,但它們并不是一個(gè)領(lǐng)域:即使很難用語(yǔ)言表達,這些領(lǐng)域的大多數專(zhuān)家也都能直觀(guān)的理解特定的工作是如何被分類(lèi)為數據科學(xué)、機器學(xué)習或人工智能的。
所以在這篇文章中,我提出了關(guān)于這三個(gè)領(lǐng)域差異的簡(jiǎn)化定義:
·數據科學(xué)產(chǎn)生洞察力。
·機器學(xué)習做出預測。
·人工智能生成行為。
顯然,這不是一個(gè)充分條件:不是所有符合該定義的東西都是該領(lǐng)域的一部分。(算命先生做出預言,但我們不會(huì )說(shuō)他們在做機器學(xué)習!)這也不是一個(gè)確定某人角色或者職位頭銜的好方法(我是數據科學(xué)家嗎?)。
但是我認為這個(gè)定義對區分這三種工作是非常有效方法,并且可以避免你談?wù)撍臅r(shí)候聽(tīng)起來(lái)很傻。
數據科學(xué)生成洞察力
數據科學(xué)與其他兩個(gè)領(lǐng)域非常不同,因為它的目標同時(shí)也是人類(lèi)的一個(gè)目標:獲得洞察力和理解能力。Jeff Leek對數據科學(xué)能夠達到的洞察類(lèi)型有一個(gè)很好的定義,包括描述性(“平均客戶(hù)端更新的幾率為70%”)探索性(不同的銷(xiāo)售人員有不同的更新率)和因果關(guān)系。
同樣,并不是所有產(chǎn)生洞察力的都有資格成為數據科學(xué),數據科學(xué)的經(jīng)典定義是它涉及了統計學(xué),軟件工程和領(lǐng)域專(zhuān)業(yè)知識的組合。但是我們可以利用這個(gè)定義來(lái)區分它和ML、AI。它們最主要的區別在于,在數據科學(xué)循環(huán)過(guò)程中總需要人參與:由人理解洞察結果,了解大體輪廓,或者從結論中獲益。所以像“下棋算法使用數據科學(xué)來(lái)選擇下一步”或者“谷歌地圖使用數據科學(xué)來(lái)推薦駕駛方向”這些說(shuō)法都是毫無(wú)意義的。
因此,數據科學(xué)的定義強調:
·統計推斷
·數據可視化
·實(shí)驗設計
·領(lǐng)域知識
·通訊
數據科學(xué)家可以使用一些非常簡(jiǎn)單的工具:他們可以獲得百分比,并根據SQL查詢(xún)結果繪制線(xiàn)形圖。也可以使用非常復雜的方法:他們能夠與分散的數據倉庫合作,分析數以萬(wàn)億計的記錄,從而開(kāi)發(fā)最前沿的統計技術(shù),建立交互式可視化。但是不管他們使用什么,目的都是為了更好地理解他們的數據。
機器學(xué)習做出預測
我認為機器學(xué)習屬于預測領(lǐng)域:“給出具有特定特征的實(shí)例X,推測Y”。這些預測可能是關(guān)于未來(lái)的(預測這個(gè)病人是否會(huì )進(jìn)入敗血癥),也可能是關(guān)于預測對計算機來(lái)說(shuō)不那么明顯的特性(預測這個(gè)圖像是否會(huì )有鳥(niǎo))。幾乎所有的Kaggle競賽都可以被認為是機器學(xué)習相關(guān)的問(wèn)題:他們提供一些訓練數據,然后看看競賽者能否對新的例子做出準確的預測。
數據科學(xué)和機器學(xué)習有很多的重疊之處。例如,都可以用邏輯回歸來(lái)獲取對有關(guān)關(guān)系的見(jiàn)解(越富裕的人越有可能購買(mǎi)我們的產(chǎn)品,所以我們應該改變我們的營(yíng)銷(xiāo)策略)并且可以做出預測(該用戶(hù)有53%的幾率購買(mǎi)我們的產(chǎn)品,所以我們應該多向他們推銷(xiāo))。
像隨機森林(random forests)這樣的模型,其可解釋性稍差,所以更適合“機器學(xué)習”的描述,而深度學(xué)習等方法則是難以解釋的。如果你的目標是獲取真知灼見(jiàn),而不是做出預測,那么這可能會(huì )妨礙你。因此,我們可以想象一個(gè)數據科學(xué)和機器學(xué)習的“光譜”,有更多的可解釋模型傾向于數據科學(xué)方面,而更多的是機器學(xué)習方面的“黑匣子”模型。

大多數的從業(yè)者能夠非常自在的在兩個(gè)領(lǐng)域之間來(lái)回切換。我在工作中就同時(shí)使用了機器學(xué)習和數據學(xué)習:我可以在Stack Overflow流量數據上安裝一個(gè)模型,以確定哪些用戶(hù)可能正在尋找工作(機器學(xué)習),然后構建總結和可視化來(lái)檢驗模型的工作原理(數據科學(xué))。這是發(fā)現模型缺陷的一個(gè)重要方法,也是解決算法偏差的重要方法。這是數據科學(xué)家常常負責開(kāi)發(fā)產(chǎn)品的機器學(xué)習組件的原因之一。
人工智能生成行為
人工智能是迄今為止這三種標識中最古老也是最廣為人知的,因此定義它最具有挑戰性。這個(gè)術(shù)語(yǔ)已經(jīng)被炒作泛濫,這要歸功于研究人員,記者以及尋求金錢(qián)或者關(guān)注的創(chuàng )業(yè)公司。
·當你籌備資金時(shí),這是人工智能
·當你招聘時(shí),就是ML
·當你正在執行時(shí),這就是線(xiàn)性回歸
·當你調試時(shí),就是printf()
讓我沮喪的是這引起了強烈的反彈,因為這意味著(zhù)一些應該被稱(chēng)為人工智能的工作卻沒(méi)有得到相應的描述。一些研究人員甚至還抱怨人工智能的影響:“人工智能是我們目前還做不到的”。那么我們可以用AI來(lái)描述什么工作呢?
“人工智能”定義中的一個(gè)共同點(diǎn)是自主代理人執行或推薦操作,一些我認為應該描述為AI的系統包括:
·游戲規則(深藍,AlphaGo)
·機器人與控制理論(運動(dòng)規劃,行走兩足機器人)
·優(yōu)化(谷歌地圖選擇路線(xiàn))
·自然語(yǔ)言處理(bots2)
·強化學(xué)習
同樣,我們可以看到它與其他領(lǐng)域有很多重疊之處。而深度學(xué)習橫跨了ML和AI兩個(gè)領(lǐng)域,這非常有趣。典型的用例是對數據進(jìn)行訓練,然后生成預測,但在A(yíng)lphaGo這樣的博弈算法中卻取得了巨大的成功。(這與早期的游戲系統不同,比如深藍,它更專(zhuān)注于探索和優(yōu)化未來(lái)的解決方案空間)。
但也有區別。如果我分析一些銷(xiāo)售數據并發(fā)現某個(gè)特定行業(yè)的客戶(hù)比其他行業(yè)的客戶(hù)更新的更多,那么輸出的是一些數字和圖形,而不是指定操作。
請不要將那些訓練算法的人描述為“利用了人工智能的力量”。
- Dave Gershgorn (@davegershgorn) 2017年9月18日。
人工智能和機器學(xué)習之間的區別更加微妙,歷史上的ML經(jīng)常被認為是人工智能的一個(gè)分支(特別是計算機視覺(jué),其實(shí)它是一個(gè)典型的人工智能問(wèn)題)。但我認為,ML領(lǐng)域很大程度上是由人工智能“中斷”的,部分原因是上面描述的反彈:大多數從事預測問(wèn)題的人不喜歡把自己描述為人工智能研究員。(它能通過(guò)統計數據幫助許多ML實(shí)現重大突破,而這些數據在人工智能的其他領(lǐng)域卻沒(méi)有那么大的影響力)。這意味著(zhù)如果你可以用“Y預測X”來(lái)描述一個(gè)問(wèn)題,那么我建議你避免使用AI這個(gè)詞。
案例研究:如何一起使用這三者?
假設我們正在制造一輛自動(dòng)駕駛汽車(chē),并且正在研究如何在停車(chē)標記處自動(dòng)停車(chē)的具體問(wèn)題。那么我們將需要使用這三個(gè)領(lǐng)域的技能。
機器學(xué)習:汽車(chē)必須能夠通過(guò)攝像頭識別停車(chē)標志。我們構建了數據集,其中包含數以百萬(wàn)計的街邊對象的照片,并訓練一種算法來(lái)預測哪些有停止標志。
人工智能:一旦我們的汽車(chē)能夠識別停車(chē)標志了,就需要決定什么時(shí)候執行剎車(chē)動(dòng)作。太早太晚都非常危險,而且我們需要它能應對不同的路況(例如,它要能意識到在濕滑路面上剎車(chē)不會(huì )快速減速),這是一個(gè)控制理論的問(wèn)題。
數據科學(xué):在街頭測試中,我們發(fā)現車(chē)輛性能不夠好,因為總會(huì )略過(guò)一些停車(chē)標志。通過(guò)對街頭測試數據的分析,我們得出了結論:在日出之前和日落之后,更容易錯過(guò)停車(chē)標志。這讓我們意識到,我們大部分的訓練數據只包含白天的影像,所以我們構造了一個(gè)包括了夜間圖像的更好的數據集,然后重新回到機器學(xué)習步驟進(jìn)行研究測試。
我們常說(shuō)的“機器人”指的是解釋自然語(yǔ)言,然后以實(shí)物回應的系統。這可以從文本挖掘中區分出來(lái),其目標是提取見(jiàn)解(數據科學(xué))或文本分類(lèi),其目標是對文檔進(jìn)行分類(lèi)(機器學(xué)習)。
評論