哈佛大學(xué)教授詳解:深度學(xué)習和經(jīng)典統計學(xué)差異?(2)
二、經(jīng)典和現代預測模型
機器學(xué)習,無(wú)論是不是深度學(xué)習,都沿著(zhù) Breiman 的第二種觀(guān)點(diǎn)演進(jìn),即以預測為重點(diǎn)。這種文化有著(zhù)悠久的歷史。例如,Duda 和 Hart 在 1973 年出版的教科書(shū)和 Highleyman 1962 年的論文就寫(xiě)到了下圖中的內容,這對于今天的深度學(xué)習研究者來(lái)說(shuō)是非常容易理解的:
Duda 和 Hart 的教科書(shū)《Pattern classification and scene analysis》和 Highleyman 1962 年的論文《The Design and Analysis of Pattern Recognition Experiments》中的片段
類(lèi)似地,下圖中的 Highleyman 的手寫(xiě)字符數據集和用于擬合它的架構 Chow(1962)(準確率約為 58%)也會(huì )引起很多人的共鳴。
三、為什么深度學(xué)習與眾不同?
1992 年,Geman、Bienenstock 和 Doursat 寫(xiě)了一篇關(guān)于神經(jīng)網(wǎng)絡(luò )的悲觀(guān)文章,認為 “當前的前饋神經(jīng)網(wǎng)絡(luò )在很大程度上不足以解決機器感知和機器學(xué)習中的難題”。具體來(lái)說(shuō),他們認為通用神經(jīng)網(wǎng)絡(luò )在處理困難任務(wù)方面不會(huì )成功,而它們成功的唯一途徑是通過(guò)人工設計的特征。用他們的話(huà)說(shuō):“重要屬性必須是內置的或“硬連接的”…… 而不是以任何統計意義上的方式學(xué)習?!?現在看來(lái) Geman 等人完全錯了,但更有意思的是了解他們?yōu)槭裁村e了。
深度學(xué)習確實(shí)不同于其它學(xué)習方法。雖然深度學(xué)習似乎只是預測,就像最近鄰或隨機森林一樣,但它可能有更多的復雜參數。這看起來(lái)似乎只是量的差異,而不是質(zhì)的差異。但在物理學(xué)中,一旦尺度變化了幾個(gè)數量級,通常就需要完全不同的理論,深度學(xué)習也是如此。深度學(xué)習與經(jīng)典模型(參數化或非參數化)的基礎過(guò)程完全不同,雖然它們的數學(xué)方程(和 Python 代碼)在更高層次上來(lái)看是相同的。
為了說(shuō)明這一點(diǎn),下面考慮兩個(gè)不同的場(chǎng)景:擬合統計模型和向學(xué)生教授數學(xué)。
場(chǎng)景 A:擬合一個(gè)統計模型
通過(guò)數據去擬合一個(gè)統計模型的典型步驟如下:
1.這里有一些數據(
是
的矩陣;
是
維向量,即類(lèi)別標簽。把數據認為是來(lái)自某個(gè)有結構且包含噪聲的模型,就是要去擬合的模型)
2.使用上面的數據擬合一個(gè)模型,并用優(yōu)化算法來(lái)最小化經(jīng)驗風(fēng)險。就是說(shuō)通過(guò)優(yōu)化算法找到這樣的
,使得
最小,
代表?yè)p失(表明預測值有多接近真實(shí)值),
是可選的正則化項。
3. 模型的總體損失越小越好,即泛化誤差的值相對最小。
Effron 從包含噪聲的觀(guān)測中恢復牛頓第一定律的展示圖
這個(gè)非常通用的范例其實(shí)包含許多內容,如最小二乘線(xiàn)性回歸、最近鄰、神經(jīng)網(wǎng)絡(luò )訓練等等。在經(jīng)典統計場(chǎng)景中,我們通常會(huì )碰到下面的情況:
權衡:假設是經(jīng)過(guò)優(yōu)化的模型集合(如果函數是非凸的或包含正則化項,精心選擇算法和正則化,可得到模型集
。
的偏差是元素
所能達到的最接近真值的近似值。集合
越大,偏差越小,并且可能為 0(如果
)。
然而,越大,需要縮小其成員范圍的樣本越多,因此算法輸出模型的方差越大??傮w泛化誤差是偏差和方差的總和。因此,統計學(xué)習通常是 Bias-Variance 權衡,正確的模型復雜度是將總體誤差降至最低。事實(shí)上,Geman 等人證明了其對神經(jīng)網(wǎng)絡(luò )的悲觀(guān)態(tài)度,他們認為:Bias-Variance 困境造成的基本限制適用于所有非參數推理模型,包括神經(jīng)網(wǎng)絡(luò )。
“多多益善”并不總是成立:在統計學(xué)習中,更多的特征或數據并不一定會(huì )提高性能。例如,從包含許多不相關(guān)特征的數據中學(xué)習是很難的。類(lèi)似地,從混合模型中學(xué)習,其中數據來(lái)自?xún)蓚€(gè)分布中的一個(gè)(如和
),比獨立學(xué)習每個(gè)分布更難。
收益遞減:在很多情況中,將預測噪聲降低到水平所需的數據點(diǎn)數量與參數
和
是有關(guān)的,即數據點(diǎn)數量約等于
。在這種情況下,需要大約 k 個(gè)樣本才能啟動(dòng),但一旦這樣做,就面臨著(zhù)回報遞減的情況,即如果需要
個(gè)點(diǎn)才能達到 90% 的準確率,則需要大約額外的
個(gè)點(diǎn)來(lái)將準確率提高到 95%。一般來(lái)說(shuō),隨著(zhù)資源增加(無(wú)論是數據、模型復雜度還是計算),人們希望獲得越來(lái)越精細的區分,而不是解鎖特定的新功能。
對損失、數據的嚴重依賴(lài)性:當將模型擬合到高維數據時(shí),任何小細節都可能會(huì )產(chǎn)生很大的差異。L1 或 L2 正則化器等選擇很重要,更不用說(shuō)使用完全不同的數據集。不同數量的高維優(yōu)化器相互之間也非常不同。
數據是相對 “單純” 的:通常會(huì )假設數據是獨立于某些分布進(jìn)行采樣的。雖然靠近決策邊界的點(diǎn)很難分類(lèi),但考慮到高維度上測量集中現象,可以認為大多數點(diǎn)的距離都是相近的。因此在經(jīng)典的數據分布中,數據點(diǎn)間的距離差異是不大的。然而,混合模型可以顯示這種差異,因此,與上述其他問(wèn)題不同,這種差異在統計中很常見(jiàn)。
場(chǎng)景 B:學(xué)習數學(xué)
在這個(gè)場(chǎng)景中,我們假設你想通過(guò)一些說(shuō)明和練習來(lái)教學(xué)生數學(xué)(如計算導數)。這個(gè)場(chǎng)景雖然沒(méi)有正式定義,但有一些定性特征:
學(xué)習一項技能,而不是去近似一個(gè)統計分布:在這種情況下,學(xué)生學(xué)習的是一種技能,而不是某個(gè)量的估計 / 預測。具體來(lái)說(shuō),即使將練習映射到解的函數不能被用作解決某些未知任務(wù)的“黑盒”,但學(xué)生在解決這些問(wèn)題時(shí)形成的思維模式仍然對未知任務(wù)是有用的。
多多益善:一般來(lái)說(shuō),做題越多、題型涉獵越廣的學(xué)生表現越好。同時(shí)做一些微積分題和代數題,不會(huì )導致學(xué)生的微積分成績(jì)下降,相反可能幫助其微積分成績(jì)提升。
從提升能力到自動(dòng)化表示:雖然在某些情況下,解決問(wèn)題的回報也會(huì )遞減,但學(xué)生的學(xué)習會(huì )經(jīng)歷幾個(gè)階段。有一個(gè)階段,解決一些問(wèn)題有助于理解概念并解鎖新的能力。此外,當學(xué)生重復某一特定類(lèi)型的問(wèn)題時(shí),他們見(jiàn)到同類(lèi)問(wèn)題就會(huì )形成自動(dòng)化的解題流程,從之前的能力提升轉變?yōu)樽詣?dòng)化解題。
表現獨立于數據和損失:教授數學(xué)概念的方法不止一種。使用不同書(shū)、教育方法或評分系統學(xué)習的學(xué)生最終可以學(xué)習到相同的內容以及相似的數學(xué)能力。
有些問(wèn)題更困難:在數學(xué)練習中,我們經(jīng)??吹讲煌瑢W(xué)生解決同一問(wèn)題的方式之間存在著(zhù)很強的相關(guān)性。對于一個(gè)問(wèn)題來(lái)說(shuō),似乎確實(shí)存在一個(gè)固有的難度水平,以及一個(gè)對學(xué)習最有利的自然難度遞進(jìn)。
四、深度學(xué)習更像是統計估計還是學(xué)生學(xué)習技能?
上面兩個(gè)場(chǎng)景的比喻中,哪一個(gè)用來(lái)描述現代深度學(xué)習更恰當?具體來(lái)說(shuō),它成功的原因是什么?統計模型擬合可以很好地使用數學(xué)和代碼來(lái)表達。實(shí)際上,規范的 Pytorch 訓練循環(huán)通過(guò)經(jīng)驗風(fēng)險最小化訓練深度網(wǎng)絡(luò ):
在更深的層次上,這兩種場(chǎng)景之間的關(guān)系并不清楚。為了更具體,這里以一個(gè)特定的學(xué)習任務(wù)為例??紤]使用 “自監督學(xué)習 + 線(xiàn)性探測” 方法訓練的分類(lèi)算法。具體算法訓練如下:
1. 假設數據是一個(gè)序列,其中
是某個(gè)數據點(diǎn)(比如一張圖片),
是標簽。
2. 首先得到表示函數的深度神經(jīng)網(wǎng)絡(luò )。通過(guò)最小化某種類(lèi)型的自監督損失函數,僅使用數據點(diǎn)
而不使用標簽來(lái)訓練該函數。這種損失函數的例子是重建(用其它輸入恢復輸入)或對比學(xué)習(核心思想是正樣本和負樣本在特征空間對比,學(xué)習樣本的特征表示)。
3. 使用完整的標記數據擬合線(xiàn)性分類(lèi)器
(
是類(lèi)數),以最小化交叉熵損失。我們的最終分類(lèi)器是:
步驟 3 僅適用于線(xiàn)性分類(lèi)器,因此 “魔術(shù)” 發(fā)生在步驟 2 中(深度網(wǎng)絡(luò )的自監督學(xué)習)。在自監督學(xué)習中有些重要屬性:
學(xué)習一項技能而不是去近似一個(gè)函數:自監督學(xué)習不是逼近函數,而是學(xué)習可用于各種下游任務(wù)的表示(這是自然語(yǔ)言處理的主導范式)。通過(guò)線(xiàn)性探測、微調或激勵獲得下游任務(wù)是次要的。
多多益善:在自監督學(xué)習中,表示質(zhì)量隨著(zhù)數據量的增加而提高,不會(huì )因為混合了幾個(gè)來(lái)源的數據而變糟。事實(shí)上,數據越多樣化越好。
Google PaLM 模型的數據集
解鎖新能力:隨著(zhù)資源(數據、計算、模型大?。┩度氲脑黾?,深度學(xué)習模型也在不連續地改進(jìn)。在一些組合環(huán)境中也證明了這一點(diǎn)。
隨著(zhù)模型規模的增加,PaLM 在基準測試中顯示出不連續的改進(jìn),并且解鎖令人驚訝的功能,比如解釋笑話(huà)為什么好笑
性能幾乎與損失或數據無(wú)關(guān):存在多個(gè)自監督損失,圖像研究中其實(shí)使用了多種對比和重建損失,語(yǔ)言模型使用單邊重建(預測下一個(gè) token)或使用 mask 模型,預測來(lái)自左右 token 的 mask 輸入。也可以使用稍微不同的數據集。這些可能會(huì )影響效率,但只要做出 “合理” 的選擇,通常原始資源比使用的特定損失或數據集更能提升預測性能。
有些情況比其他情況更困難:這一點(diǎn)并不特定于自監督學(xué)習。數據點(diǎn)似乎有一些固有的 “難度級別”。事實(shí)上,不同的學(xué)習算法具有不同的“技能水平”,不同的數據點(diǎn)具有不同的” 難度水平“(分類(lèi)器正確分類(lèi)點(diǎn)
的概率隨
的技能而單調提升,隨
難度單調降低)。
“技能與難度(skill vs. difficulty)”范式是對 Recht 等人和 Miller 等人發(fā)現的 “accuracy on the line” 現象的最清晰解釋。Kaplen、Ghosh、Garg 和 Nakkiran 的論文還展示了數據集中的不同輸入如何具有固有的“難度剖面”,對于不同的模型族,該剖面通常是穩健的。
CIFAR-10 上訓練并在 CINIC-10 上測試的分類(lèi)器的 accuracy on the line 現象。圖源:https://millerjohnp-linearfits-app-app-ryiwcq.streamlitapp.com/
頂部的圖描述了最可能類(lèi)別的不同 softmax 概率,作為某個(gè)類(lèi)別分類(lèi)器的全局精度的函數,該類(lèi)別由訓練時(shí)間索引。底部的餅圖顯示了不同數據集分解為不同類(lèi)型的點(diǎn)(注意,這種分解對于不同的神經(jīng)結構是相似的)。
訓練就是教學(xué):現代大模型的訓練似乎更像是教學(xué)生,而不是讓模型擬合數據,當學(xué)生不懂或感到疲倦時(shí),就 “休息” 或嘗試不同的方法(訓練差異)。Meta 的大模型訓練日志很有啟發(fā)性——除了硬件問(wèn)題外,我們還可以看到干預措施,例如在訓練過(guò)程中切換不同的優(yōu)化算法,甚至考慮 “hot swapping” 激活函數(GELU to RELU)。如果將模型訓練視為擬合數據,而不是學(xué)習表示,則后者沒(méi)有多大意義。
Meta 訓練日志摘錄
4.1)但是監督學(xué)習怎樣呢?
前面討論了自監督學(xué)習,但深度學(xué)習的典型例子,仍然是監督學(xué)習。畢竟,深度學(xué)習的 “ImageNet 時(shí)刻” 來(lái)自 ImageNet。那么上面所討論的是否仍然適用于這個(gè)設定?
首先,有監督的大規模深度學(xué)習的出現在某種程度上是個(gè)偶然,這得益于大型高質(zhì)量標記數據集(即 ImageNet)的可用性。如果你想象力豐富,可以想象另一種歷史,即深度學(xué)習首先開(kāi)始通過(guò)無(wú)監督學(xué)習在自然語(yǔ)言處理方面取得突破性進(jìn)展,然后才轉移到視覺(jué)和監督學(xué)習中。
其次,有證據表明,盡管使用完全不同的損失函數,但監督學(xué)習和自監督學(xué)習在”內部“的行為其實(shí)是相似的。兩者通常都能達到相同的性能。具體地,對于每一個(gè),人們可以將通過(guò)自監督訓練的深度為 d 的模型的前 k 層與監督模型的最后 d-k 層合在一起,而性能損失很小。
SimCLR v2 論文的表格。請注意監督學(xué)習、微調(100%)自監督和自監督 + 線(xiàn)性探測之間在性能上的一般相似性(圖源:https://arxiv.org/abs/2006.10029)
拼接自監督模型和 Bansal 等人的監督模型(https://arxiv.org/abs/2106.07682)。左:如果自監督模型的準確率(比如)比監督模型低 3%,則當層的 p 部分來(lái)自自監督模型時(shí),完全兼容的表示將導致拼接懲罰為 p 3%。如果模型完全不兼容,那么我們預計隨著(zhù)合并更多模型,準確率會(huì )急劇下降。右:合并不同自監督模型的實(shí)際結果。
自監督 + 簡(jiǎn)單模型的優(yōu)勢在于,它們可以將特征學(xué)習或 “深度學(xué)習魔法”(由深度表示函數完成)與統計模型擬合(由線(xiàn)性或其他“簡(jiǎn)單” 分類(lèi)器在此表示之上完成)分離。
最后,雖然這更像是一種推測,但事實(shí)上 “元學(xué)習” 似乎往往等同于學(xué)習表征(參見(jiàn):https://arxiv.org/abs/1909.09157,https://arxiv.org/abs/2206.03271 ),這可以被視為另一個(gè)證據,證明這在很大程度上是在進(jìn)行的,而不管模型優(yōu)化的目標是什么。
4.2)過(guò)度參數化怎么辦?
本文跳過(guò)了被認為是統計學(xué)習模型和深度學(xué)習在實(shí)踐中存在差異的典型例子:缺乏 “Bias-Variance 權衡” 以及過(guò)度參數化模型的良好泛化能力。
為什么要跳過(guò)?有兩個(gè)原因:
首先,如果監督學(xué)習確實(shí)等于自監督 + 簡(jiǎn)單學(xué)習,那么這可能解釋了它的泛化能力。
其次,過(guò)度參數化并不是深度學(xué)習成功的關(guān)鍵。深度網(wǎng)絡(luò )之所以特別,并不是因為它們與樣本數量相比大,而是因為它們在絕對值上大。事實(shí)上,通常在無(wú)監督 / 自監督學(xué)習中,模型不會(huì )過(guò)度參數化。即使對于非常大的語(yǔ)言模型,它們的數據集也更大。
Nakkiran-Neyshabur-Sadghi“deep bootstrap”論文表明,現代架構在 “過(guò)度參數化” 或“欠采樣”狀態(tài)下表現類(lèi)似(模型在有限數據上訓練多個(gè) epoch,直到過(guò)度擬合:上圖中的 “Real World”),在“欠參數化” 或者 “在線(xiàn)” 狀態(tài)下也是如此(模型訓練單個(gè) epoch,每個(gè)樣本只看一次:上圖中的 “Ideal World”)。圖源:https://arxiv.org/abs/2010.08127
總結
統計學(xué)習當然在深度學(xué)習中發(fā)揮著(zhù)作用。然而,盡管使用了相似的術(shù)語(yǔ)和代碼,但將深度學(xué)習視為簡(jiǎn)單地擬合一個(gè)比經(jīng)典模型具有更多參數的模型,會(huì )忽略很多對其成功至關(guān)重要的東西。教學(xué)生數學(xué)的比喻也不是完美的。
與生物進(jìn)化一樣,盡管深度學(xué)習包含許多復用的規則(如經(jīng)驗損失的梯度下降),但它會(huì )產(chǎn)生高度復雜的結果。似乎在不同的時(shí)間,網(wǎng)絡(luò )的不同組件會(huì )學(xué)習不同的東西,包括表示學(xué)習、預測擬合、隱式正則化和純噪聲等。研究人員仍在尋找合適的視角提出有關(guān)深度學(xué)習的問(wèn)題,更不用說(shuō)回答這些問(wèn)題。
原文鏈接:https://windowsontheory.org/2022/06/20/the-uneasy-relationship-between-deep-learning-and-classical-statistics/
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
linux操作系統文章專(zhuān)題:linux操作系統詳解(linux不再難懂)pwm相關(guān)文章:pwm是什么
土壤濕度傳感器相關(guān)文章:土壤濕度傳感器原理