吳恩達:AI的下一個(gè)發(fā)展方向,從大數據轉向小數據
AI 發(fā)展方向需要轉向「小數據」了。
吳恩達(Andrew Ng)在 AI 領(lǐng)域有著(zhù)很高的聲譽(yù)。在 2000 年代后期,他率先使用 GPU 與斯坦福大學(xué)的學(xué)生一起訓練深度學(xué)習模型,并于 2011 年創(chuàng )立了 Google Brain,以通過(guò)分布式集群計算機開(kāi)發(fā)超大規模的人工神經(jīng)網(wǎng)絡(luò )。2014 年 5 月,吳恩達加入百度,負責「百度大腦」計劃,并擔任百度公司首席科學(xué)家,2017 年 3 月,吳恩達宣布從百度辭職。2017 年 12 月,吳恩達宣布成立人工智能公司 Landing . AI,擔任公司的首席執行官。
近日,吳恩達在接受 IEEE Spectrum 的采訪(fǎng)時(shí),他表示已經(jīng)確定了 AI 領(lǐng)域的下一個(gè)重大轉變方向,是時(shí)候從大數據轉向小數據、優(yōu)質(zhì)數據。
目前,吳恩達的工作重心在其所創(chuàng )立的 Landing.AI 公司,該公司建立了一個(gè)名為 LandingLens 的平臺,以幫助制造商通過(guò)計算機視覺(jué)改進(jìn)視覺(jué)檢測。此外,他還成為了「以數據為中心」的 AI 運動(dòng)的擁護者,并表示小數據也能解決包括模型效率、準確率和偏見(jiàn)等問(wèn)題在內的 AI 大問(wèn)題。
以下是采訪(fǎng)原文,機器之心做了不改變原意的編譯。
吳恩達:以數據為中心的解決方案來(lái)解決 AI 大問(wèn)題
在過(guò)去十年左右的時(shí)間里,深度學(xué)習的巨大進(jìn)步是由越來(lái)越大的模型處理越來(lái)越多的數據推動(dòng)的。有人認為這是一個(gè)不可持續的軌跡。你怎么看?
吳恩達:這確實(shí)是個(gè)值得思考的問(wèn)題。我們在 NLP 領(lǐng)域已經(jīng)看到了的基礎模型的發(fā)展潛力。我對 NLP 模型變得更大以及在計算機視覺(jué)中構建基礎模型感到興奮。我認為在 CV 中仍有很多信息可以利用:但由于計算性能以及視頻處理成本的限制,還無(wú)法建立相關(guān)的基礎模型。大數據、大模型作為深度學(xué)習算法引擎已經(jīng)成功的運行了大約 15 年,到目前為止,它仍然有動(dòng)力。話(huà)雖如此,它只適用于某些問(wèn)題,還有一系列其他問(wèn)題需要小數據才能解決。
你提到的計算機視覺(jué)基礎模型是指什么?
吳恩達:這是我和斯坦福大學(xué)的一些朋友創(chuàng )造的一個(gè)術(shù)語(yǔ),它指的是非常大的模型,并在非常大的數據集上進(jìn)行訓練,使用時(shí)可以為特定的應用進(jìn)行微調。例如,我們可以將 GPT-3 視為 NLP 領(lǐng)域的一個(gè)基礎模型?;A模型為開(kāi)發(fā)機器學(xué)習應用程序提供了新范式,應用前景很大,但同時(shí)也面臨著(zhù)一些挑戰:如何確保合理公平且沒(méi)有偏見(jiàn),特別是這些挑戰隨著(zhù)越來(lái)越多的研究者在基礎模型上構建應用,會(huì )越來(lái)越明顯。
為視頻建立一個(gè)基礎模型需要什么?
吳恩達:我認為存在可擴展性問(wèn)題。相比于 NLP,在 CV 領(lǐng)域處理大量視頻圖像需要巨大的計算,我認為這就是為什么在 NLP 中率先出現了基礎模型。許多研究者正在研究這個(gè)問(wèn)題,我認為在 CV 領(lǐng)域開(kāi)發(fā)此類(lèi)模型已經(jīng)有了早期跡象。但如果有比現在高 10 倍以上的處理器,我們就可以輕松構建包含 10 倍視頻數據的基礎視覺(jué)模型。
話(huà)雖如此,過(guò)去十年深度學(xué)習的成功更多的發(fā)生在面向消費者的公司,這些公司擁有龐大的用戶(hù)群體,有時(shí)是數十億用戶(hù),因此數據量巨大。雖然這種機器學(xué)習范式為消費軟件帶來(lái)了巨大的經(jīng)濟價(jià)值,但我發(fā)現這種規?;椒ú贿m用于其他行業(yè)。
聽(tīng)你這么說(shuō)很有趣,因為你早期的工作是在一家面向消費者、擁有數百萬(wàn)用戶(hù)的公司。
吳恩達:十多年前,當我提議啟動(dòng) Google Brain 項目時(shí),使用谷歌的計算基礎設施來(lái)構建大型神經(jīng)網(wǎng)絡(luò ),這是一個(gè)有爭議的做法。一位非常資深的研究者曾告訴我,創(chuàng )辦 Google Brain 會(huì )對我的職業(yè)生涯不利。我不應該只關(guān)注擴大規模,而應該專(zhuān)注于架構創(chuàng )新。
在數據行業(yè)中,我認為重點(diǎn)必須從大數據轉向優(yōu)質(zhì)數據。擁有 50 個(gè)精心設計的示例就足以向神經(jīng)網(wǎng)絡(luò )解釋用戶(hù)希望它學(xué)習什么。
我記得當我和我的學(xué)生發(fā)表第一篇 NeurIPS workshop 論文時(shí),提倡使用 CUDA 進(jìn)行深度學(xué)習——另一位 AI 領(lǐng)域的資深人士告訴我:CUDA 編程很復雜,作為一種編程范式,工作量太大了,但我沒(méi)有辦法說(shuō)服他。
我想他們現在都相信了。
吳恩達:我也這樣認為。在過(guò)去的一年里,當我與人們談?wù)撘詳祿橹行牡?AI 運動(dòng)時(shí),我總是想到 10 或 15 年前與人們談?wù)撋疃葘W(xué)習和可擴展性時(shí)的情景。在過(guò)去的一年里,我和 10 年前的評價(jià)一樣:這里沒(méi)有什么新東西以及這似乎是錯誤的方向。
你如何定義以數據為中心的 AI,為什么你認為它是一種運動(dòng)?
吳恩達:以數據為中心的 AI 是一門(mén)學(xué)科,它的研究重點(diǎn)是構建 AI 系統所需的數據。對于 AI 系統,你必須用代碼實(shí)現一些算法,比如神經(jīng)網(wǎng)絡(luò ),然后在你的數據集上訓練它?;谶@種范式,在過(guò)去的十年中,深度學(xué)習網(wǎng)絡(luò )有了顯著(zhù)的改進(jìn),以至于對于許多應用程序,代碼、神經(jīng)網(wǎng)絡(luò )架構基本上是一個(gè)已經(jīng)解決的問(wèn)題。因此,在實(shí)際應用程序中,現在更有效率的做法是保持神經(jīng)網(wǎng)絡(luò )體系架構不變,轉而尋找改進(jìn)數據的方法。
當我講到這件事時(shí),很多研究者表示贊成,他們按照這個(gè)規律已經(jīng)做了 20 年了?,F在是時(shí)候把這些事做成一門(mén)系統的工程學(xué)科了。
以數據為中心的 AI 運動(dòng)要比一家公司或一組研究人員要大得多。我和其他合作者在 NeurIPS 上組織了一個(gè)以數據為中心的 AI 研討會(huì ),我對出席的作者和演講者的數量感到非常高興。
你經(jīng)常談?wù)摴净驒C構可供使用的數據非常少,以數據為中心的 AI 如何幫助他們?
吳恩達:我們曾聽(tīng)說(shuō)過(guò)很多用數百萬(wàn)張圖像構建的視覺(jué)系統——我曾經(jīng)用 3.5 億張圖像構建了一個(gè)人臉識別系統。用數億張圖像構建的系統,是用 50 張圖像構建的系統所遠不能達到的。但事實(shí)證明,如果你有 50 個(gè)非常好的示例,你就可以構建一些有價(jià)值的東西,比如缺陷檢查系統。在許多缺少巨型數據集的行業(yè)中,我認為重點(diǎn)必須從大數據轉向優(yōu)質(zhì)數據。擁有 50 個(gè)精心設計的示例足以向神經(jīng)網(wǎng)絡(luò )解釋用戶(hù)希望它學(xué)習什么。
僅使用 50 張圖像來(lái)訓練模型,你所講的是在非常大的數據集上訓練模型并對其進(jìn)行微調?還是訓練一個(gè)全新的模型?
吳恩達:讓我來(lái)描述一下 Landing.AI 的功能。在為制造商做視覺(jué)檢查時(shí),我們經(jīng)常使用預訓練模型 RetinaNet,其實(shí)預訓練只是一小部分難題,更大的難題是可供使用的工具,使制造商能夠選擇正確的圖像集并以相同的方式標注它們。我們在視覺(jué)、NLP 和語(yǔ)音方面都遇到過(guò)一個(gè)非常實(shí)際的問(wèn)題,即使是人類(lèi)標注也不能就標簽達成一致。對于大數據應用程序,常見(jiàn)的反應是:如果數據有噪聲,我們只需通過(guò)大量數據,相應的算法就會(huì )對其進(jìn)行平均。但是,如果能夠開(kāi)發(fā)出一些工具來(lái)標記數據不一致的地方,并提供具有針對性的方法改善數據的一致性,這將是一個(gè)獲得高性能系統的更有效的方法。
收集更多的數據通常會(huì )有所幫助,但如果研究者嘗試為所有內容收集更多數據,那代價(jià)非常昂貴。
例如,如果你有 10,000 張圖像,其中 30 張圖像屬于一類(lèi),而這 30 張圖像標簽有不一致的地方,我們要做的就是構建一種工具來(lái)對不一致的數據子集進(jìn)行處理。因此,你可以非??焖俚刂匦聵擞涍@些圖像以使其更加一致,從而提高性能。
對高質(zhì)量數據的關(guān)注是否會(huì )幫助消除數據偏見(jiàn)?如果你可以在訓練之前更多地整理數據?
吳恩達:肯定是這樣。很多研究人員指出,有偏見(jiàn)的數據是導致有偏見(jiàn)系統的眾多因素之一。在數據工程方面我們已經(jīng)有許多深思熟慮的工作。在 NeurIPS 的研討會(huì )上,Olga Russakovsky 對此進(jìn)行了非常精彩的演講。在 NeurIPS 主會(huì )議上,我也非常喜歡 Mary Gray 的演講,其中談到了以數據為中心的 AI 如何成為解決方案的一部分(而不是整個(gè)解決方案)。像 Datasheets for Datasets 這樣的新工具似乎也是這個(gè)難題的重要組成部分。
以數據為中心的 AI 為我們提供的強大工具之一是能夠設計數據子集。想象一下,訓練一個(gè)機器學(xué)習系統,發(fā)現它的性能對于大多數數據集都還可以,但它的性能只對數據的一個(gè)子集有偏見(jiàn)。如果你嘗試更改整個(gè)神經(jīng)網(wǎng)絡(luò )架構以?xún)H提高該子集的性能,那將非常困難。但是,如果你可以調整數據的子集,則可以更有針對性地解決問(wèn)題。
當說(shuō)到數據工程,我們主要在討論的是什么?
吳恩達:在 AI 領(lǐng)域里,數據清洗非常重要,但清洗數據的方式通常高度依賴(lài)手動(dòng)的方式。在計算機視覺(jué)中,有人可能會(huì )通過(guò) Jupyter Notebook 來(lái)可視化圖像,以發(fā)現問(wèn)題并修復它。我對能夠讓自己擁有大規模數據集的工具感到興奮,這些工具可以快速有效地將你的注意力吸引到標簽嘈雜的數據子集上?;蛘呖焖賹⒛愕淖⒁饬ξ?100 個(gè)類(lèi)別中的一個(gè),這將有利于收集更多數據。但如果你嘗試為所有內容收集更多數據,那可能是一項非常昂貴的工作。
例如,我曾經(jīng)發(fā)現當背景中有汽車(chē)噪音時(shí),語(yǔ)音識別系統的性能會(huì )很差。知道這一點(diǎn)讓我能夠在后臺收集更多有汽車(chē)噪音的數據,而不是試圖為所有事情收集更多數據,后者將是昂貴且緩慢的。
使用合成數據怎么樣,這通常是一個(gè)好的解決方案嗎?
吳恩達:我認為合成數據是以數據為中心的 AI 工具箱中的重要工具。在 NeurIPS 研討會(huì )上,Anima Anandkumar 做了一個(gè)關(guān)于合成數據的精彩演講。我認為合成數據的重要用途不僅僅是作為增加學(xué)習算法數據集的預處理步驟。我希望看到更多工具讓開(kāi)發(fā)人員使用合成數據生成作為迭代機器學(xué)習開(kāi)發(fā)閉環(huán)的一部分。
你的意思是,合成數據可以讓你在更多數據集上嘗試模型嗎?
吳恩達:不,這是個(gè)例子。假如你試圖檢測智能手機外殼上的缺陷,手機上有很多不同類(lèi)型的缺陷:如劃痕、凹痕、砂孔、涂料問(wèn)題等等。如果你訓練了一個(gè)模型,然后通過(guò)錯誤分析發(fā)現它總體上表現良好,但在凹痕問(wèn)題上表現不佳,那么合成數據生成可以讓你以更有針對性的方式解決問(wèn)題。你可以?xún)H為凹痕記類(lèi)別生成更多數據。
合成數據生成是一個(gè)非常強大的工具,我們也會(huì )率先嘗試很多其他工具。例如數據增強、提高標簽一致性,或者僅僅要求工廠(chǎng)收集更多數據。
你能舉個(gè)例子嗎?有公司聯(lián)系 Landing.AI 并表示在視覺(jué)檢測方面有問(wèn)題時(shí),你如何說(shuō)服他們部署自己的產(chǎn)品?
吳恩達:當客戶(hù)找到我們時(shí),我們首先就他們面臨的問(wèn)題進(jìn)行交流,并查看一些圖像以驗證該問(wèn)題在計算機視覺(jué)方面是否可行。通常我們會(huì )要求他們將數據上傳到 LandingLens 平臺。我們經(jīng)常就以數據為中心的 AI 方法論向他們提供建議,并幫助他們標注數據。
Landing.AI 的一項重要業(yè)務(wù)就是幫助制造業(yè)公司應用機器學(xué)習。我們很多時(shí)候的工作是確保軟件足夠快速,易于使用。通過(guò)機器學(xué)習開(kāi)發(fā)的迭代流程,我們?yōu)榭蛻?hù)提供諸如如何在平臺上訓練模型、何時(shí)以及如何改進(jìn)數據標記以提高模型性能等方面的建議。最后,我們的培訓和軟件服務(wù),及已訓練模型將部署到工廠(chǎng)的邊緣設備上,來(lái)為他們提供全程支持。
如何應對不斷變化的需求?如果工廠(chǎng)的產(chǎn)品發(fā)生變化或照明條件發(fā)生變化,AI 模型能否跟上?
吳恩達:每個(gè)工廠(chǎng)的情況都不一樣。很多情況下都會(huì )出現數據飄移現象,但是有一些制造商的生產(chǎn)線(xiàn)已經(jīng)運行了 20 年幾乎沒(méi)有變化,他們也預計未來(lái)五年不發(fā)生變化。那些穩定的環(huán)境使事情變得更容易。
對于其他生產(chǎn)商,我們提供了在出現重大數據漂移問(wèn)題時(shí)進(jìn)行標記的工具。我發(fā)現授權制造業(yè)客戶(hù)更正數據、重新訓練和更新模型是非常重要的事。因為如果發(fā)生問(wèn)題并是在美國凌晨 3 點(diǎn)的情況下,我希望他們能夠立即調整他們的機器學(xué)習算法以維持工廠(chǎng)運轉。
在消費互聯(lián)網(wǎng)軟件中,我們可以訓練一些機器學(xué)習模型來(lái)服務(wù)數十億用戶(hù)。在制造業(yè)中,你可能有一萬(wàn)家制造商構建一萬(wàn)個(gè)自定義 AI 模型。挑戰在于,Landing.AI 如何在不雇傭一萬(wàn)名機器學(xué)習專(zhuān)家的條件下做到這一點(diǎn)?
你是說(shuō)要使其規?;?,就必須在用戶(hù)側做大量訓練等工作?
吳恩達:就是這樣。這是人工智能領(lǐng)域中的一個(gè)全行業(yè)問(wèn)題,而不僅僅是制造業(yè)??纯瘁t療行業(yè),每家醫院的電子健康記錄格式都略有不同。醫院如何在此之上訓練自己的 AI 模型?期望每家醫院的 IT 人員都發(fā)明新的神經(jīng)網(wǎng)絡(luò )架構是不現實(shí)的。
擺脫困境的唯一方法是構建工具,通過(guò)為客戶(hù)提供工具來(lái)構筑數據和表達他們的領(lǐng)域知識,從而使他們能夠構建自己的模型。這是 Landing.AI 在計算機視覺(jué)領(lǐng)域中所做的工作,而 AI 領(lǐng)域需要其他團隊在其他領(lǐng)域執行。
你認為在以數據為中心的 AI 運動(dòng)中,還有哪些是人們需要知道的重要事情?
吳恩達:過(guò)去十年,人工智能最大的轉變是向深度學(xué)習的轉變。我認為在這十年中,最大的變化很可能是轉向以數據為中心的人工智能。隨著(zhù)當今神經(jīng)網(wǎng)絡(luò )架構的成熟,我認為在很多實(shí)際應用上,瓶頸將出在「能否有效獲取開(kāi)發(fā)運行良好系統所需的數據」上。
以數據為中心的 AI 運動(dòng)在整個(gè)社區擁有巨大的能量和動(dòng)力。我希望更多研究和開(kāi)發(fā)人員能夠加入并持續推動(dòng)它。
原文鏈接:https://spectrum.ieee.org/andrew-ng-data-centric-ai
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。