深度學(xué)習領(lǐng)域有哪些瓶頸?
作者:mileistone來(lái)源:https://www.zhihu.com/question/40577663/answer/309571753
因為我對計算機視覺(jué)比較熟,就從計算機視覺(jué)的角度說(shuō)一下自己對深度學(xué)習瓶頸的看法。
一、深度學(xué)習缺乏理論支撐
大多數文章的idea都是靠直覺(jué)提出來(lái)的,背后的很少有理論支撐。通過(guò)實(shí)驗驗證有效的idea,不一定是最優(yōu)方向。就如同最優(yōu)化問(wèn)題中的sgd一樣,每一個(gè)step都是最優(yōu),但從全局來(lái)看,卻不是最優(yōu)。
沒(méi)有理論支撐的話(huà),計算機視覺(jué)領(lǐng)域的進(jìn)步就如同sgd一樣,雖然有效,但是緩慢;如果有了理論支撐,計算機視覺(jué)領(lǐng)域的進(jìn)步就會(huì )像牛頓法一樣,有效且迅猛。
CNN模型本身有很多超參數,比如設置幾層,每一層設置幾個(gè)filter,每個(gè)filter是depth wise還是point wise,還是普通conv,filter的kernel size設置多大等等。
這些超參數的組合是一個(gè)很大的數字,如果只靠實(shí)驗來(lái)驗證,幾乎是不可能完成的。最后只能憑直覺(jué)試其中一部分組合,因此現在的CNN模型只能說(shuō)效果很好,但是絕對還沒(méi)達到最優(yōu),無(wú)論是效果還是效率。
以效率舉例,現在resnet效果很好,但是計算量太大了,效率不高。然而可以肯定的是resnet的效率可以提高,因為resnet里面肯定有冗余的參數和冗余的計算,只要我們找到這些冗余的部分,并將其去掉,效率自然提高了。一個(gè)最簡(jiǎn)單而且大多人會(huì )用的方法就是減小各層channel的數目。
如果一套理論可以估算模型的capacity,一個(gè)任務(wù)所需要模型的capacity。那我們面對一個(gè)任務(wù)的時(shí)候,使用capacity與之匹配的模型,就能使得效果好,效率優(yōu)。
二、領(lǐng)域內越來(lái)越工程師化思維
因為深度學(xué)習本身缺乏理論,深度學(xué)習理論是一塊難啃的骨頭,深度學(xué)習框架越來(lái)越傻瓜化,各種模型網(wǎng)上都有開(kāi)源實(shí)現,現在業(yè)內很多人都是把深度學(xué)習當樂(lè )高用。
面對一個(gè)任務(wù),把當前最好的幾個(gè)模型的開(kāi)源實(shí)現git clone下來(lái),看看這些模型的積木搭建說(shuō)明書(shū)(也就是論文),思考一下哪塊積木可以改一改,積木的順序是否能調換一樣,加幾個(gè)積木能不能讓效果更好,減幾個(gè)積木能不能讓效率更高等等。
思考了之后,實(shí)驗跑起來(lái),實(shí)驗效果不錯,文章發(fā)起來(lái),實(shí)驗效果不如預期,重新折騰一遍。
這整個(gè)過(guò)程非常的工程師化思維,基本就是憑感覺(jué)trial and error,深度思考缺位。很少有人去從理論的角度思考模型出了什么問(wèn)題,針對這個(gè)問(wèn)題,模型應該做哪些改進(jìn)。
舉一個(gè)極端的例子,一個(gè)數據實(shí)際上是一次函數,但是我們卻總二次函數去擬合,發(fā)現擬合結果不好,再用三次函數擬合,三次不行,四次,再不行,就放棄。我們很少思考,這個(gè)數據是啥分布,針對這樣的分布,有沒(méi)有函數能擬合它,如果有,哪個(gè)函數最合適。
深度學(xué)習本應該是一門(mén)科學(xué),需要用科學(xué)的思維去面對她,這樣才能得到更好的結果。
三、對抗樣本是深度學(xué)習的問(wèn)題,但不是深度學(xué)習的瓶頸
我認為對抗樣本雖然是深度學(xué)習的問(wèn)題,但并不是深度學(xué)習的瓶頸。機器學(xué)習中也有對抗樣本,機器學(xué)習相比深度學(xué)習有著(zhù)更多的理論支撐,依然沒(méi)能把對抗樣本的問(wèn)題解決。
之所以我們覺(jué)得對抗樣本是深度學(xué)習的瓶頸是因為,圖像很直觀(guān),當我們看到兩張幾乎一樣的圖片,最后深度學(xué)習模型給出兩種完全不一樣的分類(lèi)結果,這給我們的沖擊很大。
如果修改一個(gè)原本類(lèi)別是A的feature中某個(gè)元素的值,然后使得svm的分類(lèi)改變?yōu)锽,我們會(huì )覺(jué)得不以為然,“你改變了這個(gè)feature中某個(gè)元素的值,它的分類(lèi)結果改變很正常啊”。
作者:PENG Bo
https://www.zhihu.com/question/40577663/answer/413331053
個(gè)人認為,當前深度學(xué)習的瓶頸,可能在于 scaling。是的,你沒(méi)有聽(tīng)錯。
我們已經(jīng)有海量的數據,海量的算力,但我們卻難以訓練大型的深度網(wǎng)絡(luò )模型(GB 到 TB 級別的模型),因為 BP 難以大規模并行化。數據并行不夠,用模型并行后加速比就會(huì )大打折扣。即使在加入諸多改進(jìn)后,訓練過(guò)程對帶寬的要求仍然太高。
這就是為什么 nVidia 的 DGX-2 只有 16 塊 V100,但就是要賣(mài)到 250 萬(wàn)。因為雖然用少得多的錢(qián)就可以湊出相同的總算力,但很難搭出能高效運用如此多張顯卡的機器。
而且 DGX-2 內部的 GPU 也沒(méi)有完全互聯(lián):
又例如 AlphaGo Zero 的訓練,實(shí)際用于訓練的只是很少的 TPU。即使有幾千幾萬(wàn)張 TPU,也并沒(méi)有辦法將他們高效地用于訓練網(wǎng)絡(luò )。
如果什么時(shí)候深度學(xué)習可以無(wú)腦堆機器就能不斷提高訓練速度(就像挖礦可以堆礦機),從而可以用超大規模的多任務(wù)網(wǎng)絡(luò ),學(xué)會(huì ) PB EB 級別的各類(lèi)數據,那么所能實(shí)現的效果很可能會(huì )是令人驚訝的。
那么我們看現在的帶寬:
https://en.wikipedia.org/wiki/List_of_interface_bit_rates
2011年出了PCI-E 3.0 x16,是 15.75 GB/s,現在消費級電腦還是這水平,4.0還是沒(méi)出來(lái),不過(guò)可能是因為大家沒(méi)動(dòng)力(游戲對帶寬要求沒(méi)那么高)。
NVLink 2.0是 150 GB/s,對于大型并行化還是完全不夠的。
大家可能會(huì )說(shuō),帶寬會(huì )慢慢提上來(lái)的。
很好,那么,這就來(lái)到了最奇怪的問(wèn)題,我想這個(gè)問(wèn)題值得思考:
我的想法是:
- 人腦的并行化做得太好了,因此神經(jīng)元之間只需要kB級的帶寬。值得AI芯片和算法研究者學(xué)習。
- 人腦的學(xué)習方法比BP粗糙得多,所以才能這樣大規模并行化。
- 人腦的學(xué)習方法是去中心化的,個(gè)人認為,更接近 energy-based 的方法。
- 人腦的其它特點(diǎn),用現在的遷移學(xué)習+多任務(wù)學(xué)習+持續學(xué)習已經(jīng)可以模仿。
- 人腦還會(huì )用語(yǔ)言輔助思考。如果沒(méi)有語(yǔ)言,人腦也很難快速學(xué)會(huì )復雜的事情。
作者:Giant
https://www.zhihu.com/question/40577663/answer/1974793135
我的研究領(lǐng)域主要是自然語(yǔ)言處理(NLP),下面從NLP角度,結合自己的科研和工作經(jīng)驗概括深度學(xué)習欣欣向榮、令人心馳神往背后的8個(gè)典型瓶頸。
眾所周知,無(wú)論是傳統的分類(lèi)、匹配、序列標注、文本生成任務(wù),還是近期的圖像理解、音頻情感分析、Text2SQL等跨模態(tài)任務(wù),凡是采用深度學(xué)習模型的地方都對標注數據有很高的依賴(lài)。
這也是為什么前期數據不足或冷啟動(dòng)階段,深度學(xué)習模型效果差強人意的地方。相比人類(lèi)而言,模型在學(xué)習新事物時(shí)需要更多的事例。
雖然近期有了一些 low-resource 甚至 zero-resource 工作(例如對話(huà)生成的兩篇論文[1-2]),總體來(lái)說(shuō)這些方法僅適用于某些特定領(lǐng)域,難以直接推廣。
緊接上一話(huà)題,當我們通過(guò)標注團隊或眾包經(jīng)長(cháng)時(shí)間迭代獲得了大規模標注數據,訓好了模型,可是換了一個(gè)業(yè)務(wù)場(chǎng)景時(shí),模型效果又一落千丈。
或者模型僅在論文數據集上表現良好,在其余數據中無(wú)法復現類(lèi)似效果。這些都是非常常見(jiàn)的問(wèn)題。
提升模型的遷移能力是深度學(xué)習非常有價(jià)值的課題,可以大幅減少數據標注帶來(lái)的成本。好比我一個(gè)同學(xué)玩跑跑卡丁車(chē)很老練,現在新出了QQ飛車(chē)手游,他開(kāi)兩局就能觸類(lèi)旁通,輕松上星耀和車(chē)神,而不需要從最原始的漂移練起。
雖然NLP預訓練+微調的方式緩解了這一問(wèn)題,但深度學(xué)習可遷移性還有待進(jìn)一步增強。
雖然近兩年NLP領(lǐng)域頻現效果驚人的巨無(wú)霸模型,卻讓普通科研人員望而卻步。先不考慮預訓練的數萬(wàn)(BERT->1.2w$, GPT2->4.3w$)乃至上百萬(wàn)美金成本,僅使用預訓練權重就對GPU等硬件有很高的要求。
因為大模型的參數量在呈指數增長(cháng)趨勢:BERT(1.1億)、T5(110億)、GPT3(1500億)、盤(pán)古(2000億)...開(kāi)發(fā)高性能小模型是深度學(xué)習另一個(gè)很有價(jià)值的方向。
慶幸的是,在NLP領(lǐng)域已經(jīng)有了一些不錯的輕量化工作,例如TinyBERT[3],FastBERT[4]等。
如題主所述,當前深度學(xué)習對人類(lèi)情感的理解還停留在淺層語(yǔ)義層面,不具備良好的推理能力,無(wú)法真正理解用戶(hù)訴求。另一方面,如何有效地將常識或背景知識融入模型訓練,也是深度學(xué)習需要克服的瓶頸之一。
將來(lái)的某天,深度學(xué)習模型除了能寫(xiě)詩(shī)、解方程、下圍棋,還能回答家長(cháng)里短的常識性問(wèn)題,才真正算是擁有了“智能”。
雖然NLP有很多子領(lǐng)域,但是目前發(fā)展最好的方向依舊只有分類(lèi)、匹配、翻譯、搜索幾種,大部分任務(wù)的應用場(chǎng)景依然受限。
例如閑聊機器人一般作為問(wèn)答系統的兜底模塊,在FAQ或意圖模塊沒(méi)有命中用戶(hù)提問(wèn)時(shí)回復一個(gè)標準擬人話(huà)術(shù)。但如果在開(kāi)放域直接應用閑聊機器人,很容易從人工智能拐向人工智障,讓用戶(hù)反感。
深度學(xué)習領(lǐng)域超參數眾多,盡管目前也有一些自動(dòng)化調參工具如微軟的nni[5],但整體還依賴(lài)于算法工程師的個(gè)人經(jīng)驗;由于訓練時(shí)間長(cháng),參數驗證過(guò)程需要很高的時(shí)間成本。
此外,AutoML仍舊需要大規模計算力才能快速出結果,因此也需要關(guān)注增大運算規模。
把某個(gè)知名比賽刷到SOTA,然后發(fā)一篇頂會(huì )是很多研究人員的做法(包括曾經(jīng)的我)。一種典型的pipeline是:
- 不惜任何資源代價(jià)把榜單刷到第一;
- 開(kāi)始反推和解釋這種方法為何如此有效(有點(diǎn)像自圓其說(shuō))。
當然這里并不是說(shuō)這種方法不好,只是我們做研究時(shí)不應該只以刷榜為唯一目標。因為很多時(shí)候為了提升小數點(diǎn)后那0.XX%的分數真的意義不大,難以對現有的深度學(xué)習發(fā)展帶來(lái)任何益處。
這也解釋了面試官詢(xún)問(wèn)“如何在某比賽中獲得了不錯的成績(jì)”,聽(tīng)到“多模集成”等堆模型的方式上分就反感。因為實(shí)際場(chǎng)景受限于資源、時(shí)間等因素,一般不會(huì )這么干。
最后一點(diǎn)也是該領(lǐng)域的通病,整個(gè)深度學(xué)習網(wǎng)絡(luò )像是一個(gè)黑盒子,缺少清晰透澈的可解釋性。
比如為什么給大熊貓圖片增加了一點(diǎn)噪聲擾動(dòng)(相當于對抗樣本),被分類(lèi)為長(cháng)臂猿的置信度就高達 99.3%了呢?
對一些模型學(xué)到的特征可視化(CNN、Attention等),或許可以幫助我們理解模型是怎樣學(xué)習的。此前,機器學(xué)習領(lǐng)域也有利用降維技術(shù)(t-SNE等)來(lái)理解高維特征分布的方法。
更多深度學(xué)習可解釋性研究可以參考[6]。
最近,2018圖靈獎獲得者 Bengio, LeCun 和 Hinton 受ACM邀請共聚一堂,回顧了深度學(xué)習的基本概念和一些突破性成果,也講述了深度學(xué)習未來(lái)發(fā)展面臨的挑戰。
作者:知乎用戶(hù)
https://www.zhihu.com/question/40577663/answer/224699031
看了一些答案,感覺(jué)大家說(shuō)的都很有道理,但是總覺(jué)得很多人提到的瓶頸是“機器學(xué)習”的瓶頸,而非“深度學(xué)習”的瓶頸。在下拋磚引玉強答一下。
深度學(xué)習,深是表象,不是目的。Universal approximation theorem 理論證明只需要一個(gè)隱層就可以擬合任意函數,可見(jiàn)重點(diǎn)不在深。深度學(xué)習與傳統機器學(xué)習相比:深度學(xué)習就是在學(xué)習表示。也就是說(shuō),通過(guò)精心設計的分層結構學(xué)習到數據的本質(zhì)特征(表示)。
說(shuō)到瓶頸,深度學(xué)習也算是機器學(xué)習的一種,它也會(huì )有機器學(xué)習本身的瓶頸。例如對數據依賴(lài)性很強。是數據的“行為智能”而非真的有自主意識的人工智能。這些問(wèn)題上面的答案都說(shuō)了不少。
除此之外,它還有一些特有的瓶頸。
- 比如特征結構難以改變。對于數據的格式(尺寸、長(cháng)短、顏色通道、文本詞典格式等等)要求苛刻。訓練好的feature extractor不是那么容易遷移到其他task上。
- 它非常的不穩定。例如在NLP的任務(wù)中,做文本生成(QA)、圖像標注之類(lèi)的工作時(shí),有時(shí)候生成的內容讓你拍案叫絕。但經(jīng)常也會(huì )是匪夷所思。所以它的不可控性導致在工程應用中不是很廣泛。很多犧牲recall保precision的應用都沒(méi)法用深度學(xué)習去搞,否則容易出危險。相比之下rule based的方法要可靠得多。至少出問(wèn)題了能debug一下。
- 它難以hotfix,出了問(wèn)題基本靠重新調參訓練。在應用過(guò)程中會(huì )遇上很多潛在困難。
- 深度模型的優(yōu)化過(guò)于依賴(lài)個(gè)人經(jīng)驗。世界三大玄學(xué):西方占星、東方周易、深度學(xué)習。
- 模型結構越來(lái)越復雜,不同系統之間越來(lái)越難以整合。就好像一直在培養超級士兵,但他們之間語(yǔ)言不通,沒(méi)法組成一個(gè)超級軍隊。
- 敏感信息問(wèn)題。訓練模型使用的數據如果沒(méi)有脫敏,是有可能通過(guò)一些方法把敏感信息給試出來(lái)。
- 攻擊問(wèn)題?,F在已經(jīng)證實(shí)對抗樣本(Adversarial Sample)的存在。創(chuàng )建一些對抗樣本能直接干掉現有的算法。不過(guò)感覺(jué)對抗樣本的生成是由于特征抽取并沒(méi)有學(xué)習到數據的流型特征而引發(fā)的?;蛘哒f(shuō),一定程度的overfit帶來(lái)了這個(gè)問(wèn)題,
- 不過(guò)目前來(lái)說(shuō)最大的問(wèn)題還是對海量數據的需求。由于需要學(xué)習真實(shí)分布,而我們的數據僅僅是從真實(shí)分布中采樣得到的一小部分。想要讓模型真的逼近真實(shí)分布,那就要盡可能多的數據。數據量需求上來(lái)了,問(wèn)題有很多:數據從哪來(lái)?數據存在哪?如何洗數據?誰(shuí)來(lái)標數據?如何在大量數據上訓練?如何在成本(設備、數據)和效果之間trade off?
- 由第8條擴展。需要海量數據的深度學(xué)習真的就是“人工智能”嗎?反正我是不信。人腦可以用有限的知識歸納,而非只是用人為設計的指導方針來(lái)指揮機器學(xué)習到特征空間的分布。所以真正的人工智能,對數據和運算的需求應該并沒(méi)有那么大!(這條其實(shí)也是機器學(xué)習的問(wèn)題)
總之還有很多因素限制它的應用。但是樂(lè )觀(guān)來(lái)看,有問(wèn)題不怕,總是能解決的。
作者:匿名用戶(hù)
https://www.zhihu.com/question/40577663/answer/311095389
計算圖越來(lái)越復雜,設計越來(lái)越反直覺(jué)。
Dropout/BN/Residual這些創(chuàng )新也好trick也罷,至少能編一個(gè)有眉有顏的直觀(guān)解釋糊弄一下,在截然不同的場(chǎng)景和任務(wù)下也有成功的應用。去年這種級別的新的好用的trick基本沒(méi)見(jiàn)著(zhù)。煉丹師的人口越來(lái)越龐大,通用性的trick卻沒(méi)有被發(fā)掘出來(lái),說(shuō)明領(lǐng)域已經(jīng)到了一個(gè)瓶頸,好摘的桃子已經(jīng)被摘光了。
結構的潛力已經(jīng)被挖光了么?還是我們沒(méi)有找到更具有通用性和代表性的任務(wù)來(lái)作為新的trick的溫床?這些都是DL研究需要回答的問(wèn)題?,F在看起來(lái)形式并不樂(lè )觀(guān),傳統的DL研究依賴(lài)的改幾根線(xiàn)多加幾個(gè)layer,針對一個(gè)特定任務(wù)跑個(gè)分的范式,現在要發(fā)出高質(zhì)量的paper是越來(lái)越困難了。
個(gè)人的看法是,如果DL想要真正帶上人工智能的帽子,那就要去做智能改干的事情,現在人為的按照應用場(chǎng)景分成NLP/CV/ASR,粗暴的去擬合終究有上限,和人類(lèi)獲得智能的方式也并沒(méi)有共同點(diǎn)。
作者:何之源
https://www.zhihu.com/question/40577663/answer/224656397
簡(jiǎn)單說(shuō)點(diǎn)自己的想法。在我看來(lái),目前絕大多數深度學(xué)習模型,不管神經(jīng)網(wǎng)絡(luò )的構建如何復雜,其實(shí)都是在做同樣一件事:
用大量訓練數據去擬合一個(gè)目標函數y=f(x)。
x和y其實(shí)就是模型的輸入和輸出,例如:
- 圖像分類(lèi)問(wèn)題。此時(shí)x一般就是一個(gè)寬度*高度*通道數的圖像數值矩陣,y就是分類(lèi)的類(lèi)別。
- 語(yǔ)音識別問(wèn)題。x為語(yǔ)音采樣信號,y為語(yǔ)音對應的文字。
- 機器翻譯。x就是源語(yǔ)言的句子,y就是目標語(yǔ)言的句子。
而“f”則代表深度學(xué)習中的模型,如CNN、RNN、LSTM、Encoder-Decoder、Encoder-Decoder with Attention等。不同于傳統的機器學(xué)習模型相比,深度學(xué)習中的模型通常具有兩個(gè)特點(diǎn):
- 模型容量大,參數多;
- 端到端(end-to-end)。
借助GPU計算加速,深度學(xué)習可以用端到端地優(yōu)化大容量模型,從而在性能上超越傳統方法,這就是深度學(xué)習的基本方法論。
那么,這種方法有什么缺點(diǎn)呢?個(gè)人認為有以下幾點(diǎn)。
訓練的效率表現在兩方面,首先是訓練模型的時(shí)間長(cháng)。眾所周知,深度學(xué)習需要借助GPU加速訓練,但即使這樣訓練的時(shí)間也是以小時(shí)或者天為單位的。如果使用的數據量大,加上模型復雜(例如大樣本量的人臉識別、語(yǔ)音識別模型),訓練時(shí)間會(huì )以周甚至會(huì )以月來(lái)計算。
在訓練效率上還有一個(gè)缺點(diǎn)是樣本的利用率不高。舉個(gè)小小的例子:圖片鑒黃。對于人類(lèi)來(lái)說(shuō),只需要看幾個(gè)“訓練樣本”,就可以學(xué)會(huì )鑒黃,判斷哪些圖片屬于“****”是非常簡(jiǎn)單的一件事。但是,訓練一個(gè)深度學(xué)習的鑒黃模型卻往往需要成千上萬(wàn)張正例+負例的樣本,例如雅虎開(kāi)源的yahoo/open_nsfw。總的來(lái)說(shuō),和人類(lèi)相比,深度學(xué)習模型往往需要多得多的例子才能學(xué)會(huì )同一件事。這是由于人類(lèi)已經(jīng)擁有了很多該領(lǐng)域的“先驗知識”,但對于深度學(xué)習模型,我們卻缺乏一個(gè)統一的框架向其提供相應的先驗知識。
那么在實(shí)際應用中,如何解決這兩個(gè)問(wèn)題?對于訓練時(shí)間長(cháng)的問(wèn)題,解決辦法是加GPU;對于樣本利用率的問(wèn)題,可以通過(guò)增加標注樣本來(lái)解決。但無(wú)論是加GPU還是加樣本,都是需要錢(qián)的,而錢(qián)往往是制約實(shí)際項目的重要因素。
我們知道,深度學(xué)習在性能上可以大大超越傳統方法。但這種性能指標往往是統計意義上的,并不能保證個(gè)例的正確性。例如,一個(gè)99.5%準確率的圖片分類(lèi)模型,是指它在10000張測試圖片中分類(lèi)正確了9950張,但是,對于一張新的圖片,就算模型輸出的分類(lèi)的置信度很高,我們也無(wú)法保證結果是一定正確的。因為置信度和實(shí)際正確率本質(zhì)上并不等價(jià)。另外,f的不可靠性還表現在模型的可解釋性較差,在深度模型中,我們通常很難說(shuō)清楚每個(gè)參數代表的含義。
一個(gè)比較典型的例子是“對抗生成樣本”。如下所示,神經(jīng)網(wǎng)絡(luò )以60%的置信度將原始圖片識別為“熊貓”,當我們對原始圖像加入一個(gè)微小的干擾噪聲后,神經(jīng)網(wǎng)絡(luò )卻以99%的置信度將圖片識別為“長(cháng)臂猿”。這說(shuō)明深度學(xué)習模型并沒(méi)有想象得那么可靠。
在某些關(guān)鍵領(lǐng)域,如醫療領(lǐng)域,如果一個(gè)模型既不能保證結果的正確,又不能很好地解釋其結果,那么就只能充當人類(lèi)的“助手”,而不能得到普遍的應用。
最后一個(gè)問(wèn)題其實(shí)有點(diǎn)形而上學(xué),并不是什么技術(shù)上的具體問(wèn)題,不過(guò)拿出來(lái)討論討論也無(wú)妨。
很多人關(guān)心人工智能,是關(guān)心“強人工智能”的實(shí)現。仿照深度學(xué)習的方法,我們似乎可以這樣來(lái)理解人的智能:x是人的各種感官輸入,y是人的行為輸出,如說(shuō)的話(huà),做出的行為,f就代表人的智能。那么,可以通過(guò)暴力擬合f的手段訓練出人的智慧嗎?這個(gè)問(wèn)題見(jiàn)仁見(jiàn)智,我個(gè)人傾向于是不能的。人的智能可能更類(lèi)似于概念的抽象、類(lèi)比、思考與創(chuàng )造,而不是直接拿出一個(gè)黑盒子f,深度學(xué)習方法恐怕需要進(jìn)一步的發(fā)展才能去模擬真正的智能。
作者:張旭
https://www.zhihu.com/question/40577663/answer/225319588
學(xué)過(guò)點(diǎn)皮毛,湊個(gè)熱鬧。
1、深度學(xué)習對數據量的要求很大,數據量過(guò)小就會(huì )造成嚴重過(guò)擬合。2、深度學(xué)習在應對表格類(lèi)數據的時(shí)候并沒(méi)有明顯優(yōu)勢,目前比較擅長(cháng)的領(lǐng)域是計算機視覺(jué),自然語(yǔ)言處理和語(yǔ)音識別。在表格數據情境下,大家更愿意使用xgboost等模型。3、理論支撐薄弱,幾乎沒(méi)有人對深度學(xué)習的數學(xué)基礎做工作。大家一窩蜂地拿著(zhù)模型水論文。4、接上條,調參基本陷入了煉丹模式,深度學(xué)習調參已經(jīng)是一門(mén)玄學(xué)。5、硬件資源消耗大,GPU已經(jīng)是必備,但是價(jià)格高昂,因此深度學(xué)習也稱(chēng)為富人的游戲。6、部署落地仍然困難,特別是移動(dòng)應用場(chǎng)景下。7、無(wú)監督學(xué)習仍然是困難,深度學(xué)習訓練目前基本都基于梯度下降去極小化損失函數,因此需要有標簽。而對大量數據貼標簽成本很高。當然也有無(wú)監督學(xué)習網(wǎng)絡(luò )正在迅猛發(fā)展,不過(guò)嚴格意義上說(shuō),GAN和VAE等都屬于自監督學(xué)習。
看到評論中有質(zhì)疑第一條的,我發(fā)表一下自己的看法:一個(gè)比較強的學(xué)習器一般都不會(huì )擔心欠擬合的問(wèn)題。神經(jīng)網(wǎng)絡(luò )擁有大量參數,只要有足夠多的訓練輪數,理論上可以完全擬合訓練集。但是這并不是我們想要的,這樣的模型泛化能力會(huì )非常差。而造成這一結果的原因就是,數據量太少,不足以代表整個(gè)數據背后的分布情況。此種情況下,神經(jīng)網(wǎng)絡(luò )幾乎是不加辨別的強行擬合上了訓練集這個(gè)數據子集的分布,導致了過(guò)擬合。
作者:zzzz
https://www.zhihu.com/question/40577663/answer/224756448
我覺(jué)得深度學(xué)習最大的瓶頸也是其最大的優(yōu)點(diǎn),既:
1.end-to-end training
2.universal approximation
其優(yōu)點(diǎn)在于有極強的擬合能力。
缺點(diǎn)是對其中間擬合過(guò)程我們幾乎沒(méi)有任何control,所有我們想讓其學(xué)習到的東西只能通過(guò)大量的數據,更復雜的網(wǎng)絡(luò )(inception module, more layers),限定更多constraint(dropout, regularization),期望它最后學(xué)習到了等同于我們認知的判斷。
舉個(gè)具體的例子,我們想判斷一直圖像是不是人臉。
其中一個(gè)籠統的判斷標準是,這張圖像上是否涵蓋2只眼睛,1個(gè)鼻子,1個(gè)嘴巴,以及他們之間的位置信息是否符合幾何邏輯。這也正是傳統dpm的思路,雖然以上每一步(subtask)都有可能出錯,致使overall performance不會(huì )特別好。但是相對來(lái)講每一個(gè)subtask都只需要較少的訓練數據,中間結果都會(huì )比較直觀(guān),最后的結果符合我們人類(lèi)的判斷標準。
但是這件事由深度學(xué)習來(lái)做,你除了少數幾個(gè)“認知”(prior knowledge)可以通過(guò)網(wǎng)絡(luò )結構來(lái)定義(例如cnn實(shí)際上是默認feature的local coherent+position invariant的特性),其他的認知只能通過(guò)大量的數據來(lái)讓網(wǎng)絡(luò )自己去學(xué)習。一些簡(jiǎn)單的元素如臉的大小,位置,旋轉你還可以通過(guò)data augmentation來(lái)模擬,但對于膚色,背景圖案,頭發(fā)的因素,就要靠找額外數據開(kāi)擴充網(wǎng)絡(luò )對問(wèn)題的認知了。但即使是這樣,我們也無(wú)法確定網(wǎng)絡(luò )總結了哪些高層次的知識,當我拿給他一張訓練數據里沒(méi)有的二郎神的圖像,它會(huì )做出怎樣的判斷。
這也正是為什么數據是深度學(xué)習里最重要的一項。當你數據不夠多樣的時(shí)候,它可能只學(xué)習到一些比較hacky的trivial solution;但是當數據足夠全面的時(shí)候,它更有可能總結出比單純鼻子眼睛更有表達力的特征,只是我們無(wú)法理解而已。
原文鏈接:https://www.zhihu.com/question/40577663/answer/902429604
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。