主動(dòng)學(xué)習(Active Learning)概述及最新研究
學(xué)校 | 香港中文大學(xué)研究方向 | 機器人、醫療圖像、主動(dòng)學(xué)習
我將我對主動(dòng)學(xué)習的理解和最新研究的感悟都整理為這篇文章,主要目的是供大家參考、討論,一起學(xué)習和交流主動(dòng)學(xué)習的技術(shù)。同時(shí),我以后還會(huì )繼續閱讀主動(dòng)學(xué)習領(lǐng)域的文章,有不錯和值得推薦的文章,我會(huì )實(shí)時(shí)更新到我的 github 里,大家可以通過(guò)這個(gè) list 最快地閱讀最新最重要的文章,也歡迎大家向我推薦一些文章和一起交流。
Awesome Active Learning:https://github.com/baifanxxx/awesome-active-learning
Note:前 1、2、3 節都是一些主動(dòng)學(xué)習基礎內容,也有很多文章做過(guò)類(lèi)似的整理和介紹,如果你已經(jīng)很了解了,可以直接跳到 4 節以后閱讀。
主動(dòng)學(xué)習是一種通過(guò)主動(dòng)選擇最有價(jià)值的樣本進(jìn)行標注的機器學(xué)習或人工智能方法。其目的是使用盡可能少的、高質(zhì)量的樣本標注使模型達到盡可能好的性能。也就是說(shuō),主動(dòng)學(xué)習方法能夠提高樣本及標注的增益,在有限標注預算的前提下,最大化模型的性能,是一種從樣本的角度,提高數據效率的方案,因而被應用在標注成本高、標注難度大等任務(wù)中,例如醫療圖像、無(wú)人駕駛、異常檢測、基于互聯(lián)網(wǎng)大數據的相關(guān)問(wèn)題。▲ The pool-based active learning cycle. (Burr Settles, 2010)
Settles, Burr 的 Active Learning Literature Survey 文章為經(jīng)典的主動(dòng)學(xué)習工作進(jìn)行了總結。上圖是經(jīng)典的基于池的主動(dòng)學(xué)習框架。在每次的主動(dòng)學(xué)習循環(huán)中,根據任務(wù)模型和無(wú)標簽數據的信息,查詢(xún)策略選擇最有價(jià)值的樣本交給專(zhuān)家進(jìn)行標注并將其加入到有標簽數據集中繼續對任務(wù)模型進(jìn)行訓練。因為主動(dòng)學(xué)習的過(guò)程中存在人的標注,所以主動(dòng)學(xué)習又屬于 Human-in-the-Loop Machine Learning 的一種。
主動(dòng)學(xué)習為什么是有用的?下面通過(guò)一個(gè)直觀(guān)的小例子讓大家感受一下。▲ (a) 一個(gè)由 400 個(gè)實(shí)例組成的數據集,從兩類(lèi)高斯分布均勻采用。實(shí)例表示為二維特征空間中的點(diǎn)。(b) 從問(wèn)題域中隨機抽取 30 個(gè)標記實(shí)例,訓練一個(gè)邏輯回歸模型。這條藍線(xiàn)代表了分類(lèi)器的決策邊界(70% 的準確率)。(c) 使用不確定性抽樣對 30 個(gè)主動(dòng)查詢(xún)實(shí)例進(jìn)行訓練的邏輯回歸模型(90%)。(Burr Settles, 2010)
由此說(shuō)明,樣本對模型的貢獻并不是一樣的,選擇更有價(jià)值的樣本具有實(shí)際意義。當然,如何確定和評估樣本的價(jià)值也是主動(dòng)學(xué)習研究的一個(gè)重點(diǎn)。
根據應用場(chǎng)景,主動(dòng)學(xué)習的方法可以被分為 membership query synthesis, stream-based and pool-based 三種類(lèi)型。其中,pool-based 是最常見(jiàn)的場(chǎng)景,并且由于深度學(xué)習基于 batch 訓練的機制,使得 pool-based 的方法更容易與其契合。
在membership query synthesis 的場(chǎng)景中,算法可能挑選整個(gè)無(wú)標簽數據中的任何一個(gè)交給 oracle 標注,典型的假設是包括算法自己生成的數據。但是有時(shí)候,算法生成的數據無(wú)法被 oracle 識別,例如生成的手寫(xiě)字圖像太奇怪,oracle 也不能識別它屬 于 0~9?或者生成的音頻數據不存在語(yǔ)義信息,讓 oracle 也無(wú)法識別。
在 stream-based 的場(chǎng)景中,每次只給算法輸入一個(gè)無(wú)標簽樣本,由算法決定到底是交給 oracle 標注還是直接拒絕。有點(diǎn)類(lèi)似流水線(xiàn)上的次品檢測員,過(guò)來(lái)一個(gè)產(chǎn)品就需要立刻判斷是否為次品,而不能在開(kāi)始就根據這一批產(chǎn)品的綜合情況來(lái)考量。
在 pool-based 的場(chǎng)景中,每次給算法輸入一個(gè)批量的無(wú)標簽樣本,然后算法根據策略挑選出一個(gè)或幾個(gè)樣本交給 oracle 進(jìn)行標注。這樣的場(chǎng)景在生活中更容易出現,算法也可以根據這一批量樣本進(jìn)行互相比較和綜合考慮。
在主動(dòng)學(xué)習框架中,最重要的就是如何設計一個(gè)查詢(xún)策略來(lái)判斷樣本的價(jià)值,即是否值得被 oracle 標注。而樣本的價(jià)值并不是一成不變的,它不僅與樣本自身有關(guān),還和任務(wù)和模型等因素有關(guān)。一個(gè)簡(jiǎn)單的例子,在貓狗二分類(lèi)問(wèn)題中,一張長(cháng)得像貓的狗的照片,對分類(lèi)模型的訓練往往是有價(jià)值,因為它難以分辨。
但是,同樣是這張照片,出現在動(dòng)植物二分類(lèi)問(wèn)題中,就變得不那么重要了,因為模型想分辨它并不難。因此,查詢(xún)策略的設計并不是簡(jiǎn)單和一成不變的,需要根據具體環(huán)境、問(wèn)題和需要進(jìn)行設定。這樣就產(chǎn)生了各種各樣的查詢(xún)策略,下面,我介紹一些基本的查詢(xún)策略供大家參考。
不確定性采樣(Uncertainty Sampling):也許是最簡(jiǎn)單直接也最常用的策略。算法只需要查詢(xún)最不確定的樣本給 oracle 標注,通常情況下,模型通過(guò)學(xué)習不確定性強的樣本的標簽能夠迅速提升自己的性能。例如,學(xué)生在刷題的時(shí)候,只做自己愛(ài)出錯的題肯定比隨機選一些題來(lái)做提升得快。對于一些能預測概率的模型,例如神經(jīng)網(wǎng)絡(luò ),可以直接利用概率來(lái)表示不確定性。比如,直接用概率值,概率值排名第一和第二的差值,熵值等等。
多樣性采樣(Diversity Sampling) :是從數據的分布考慮的常用策略。算法根據數據分布確保查詢(xún)的樣本能夠覆蓋整個(gè)數據分布以保證標注數據的多樣性。例如,老師在出考試題的時(shí)候,會(huì )盡可能得出一些有代表性的題,同時(shí)盡可能保證每個(gè)章節都覆蓋到,這樣才能保證題目的多樣性全面地考察學(xué)生的綜合水平。同樣地,在多樣性采用的方法中,也主要分為以下幾種方式:
基于模型的離群值——采用使模型低激活的離群樣本,因為現有數據缺少這些信息;
代表性采樣——選擇一些最有代表性的樣本,例如采用聚類(lèi)等簇的方法獲得代表性樣本和根據不同域的差異找到代表性樣本;
真實(shí)場(chǎng)景多樣性——根據真實(shí)場(chǎng)景的多樣性和樣本分布,公平地采樣。
預期模型改變(Expected Model Change):EMC 通常選擇對當前模型改變最大、影響最大的樣本給 oracle 標注,一般來(lái)說(shuō),需要根據樣本的標簽才能反向傳播計算模型的改變量或梯度等。在實(shí)際應用中,為了弱化需要標簽這個(gè)前提,一般根據模型的預測結果作為偽標簽然后再計算預期模型改變。當然,這種做法存在一定的問(wèn)題,偽標簽和真實(shí)標簽并不總是一致的,他與模型的預測性能有關(guān)。
委員會(huì )查詢(xún)(Query-By-Committee):QBC 是利用多個(gè)模型組成的委員會(huì )對候選的數據進(jìn)行投****,即分別作出決策,最終他們選擇最有分歧的樣本作為最有信息的數據給 oracle 標注。
此外,有些研究者將多種查詢(xún)策略結合起來(lái)使用混合策略進(jìn)行查詢(xún),例如即考慮不確定性又考慮多樣性的。還有一些其他的查詢(xún)策略,例如預期誤差減少、方差減少、密度加權法等。
下面我給大家分享幾個(gè)經(jīng)典的主動(dòng)學(xué)習方法,這些方法經(jīng)常被拿來(lái)作對比。在自己以后的文章里也可以考慮和以下經(jīng)典的方法進(jìn)行比較。
Entropy可直接根據預測的概率分布計算熵值,選擇熵值最大的樣本來(lái)標注。
BALDDeep Bayesian Active Learning with Image Data
https://arxiv.org/abs/1703.02910
BGADLBayesian Generative Active Deep Learninghttps://arxiv.org/abs/1904.11643
Core-setActive Learning for Convolutional Neural Networks: A Core-Set Approachhttps://openreview.net/forum?id=H1aIuk-RW
LLALLearning Loss for Active Learninghttps://arxiv.org/abs/1905.03677?context=cs.CV
VAALVariational Adversarial Active Learninghttps://arxiv.org/abs/1904.00370
由于主動(dòng)學(xué)習解決的是如何從無(wú)標簽數據中選擇價(jià)值高的樣本進(jìn)行標注,所以在數據標簽難以獲得、標注成本大的場(chǎng)景和實(shí)際問(wèn)題中被廣泛應用。
互聯(lián)網(wǎng)大數據相關(guān)的應用:在互聯(lián)網(wǎng)的大數據場(chǎng)景中,無(wú)標簽的數據不計其數,但是又不可能把所有的數據都打上標簽。在有限的資金和時(shí)間下,最有效的方法就是利用主動(dòng)學(xué)習挑選最有價(jià)值的樣本交給人去打標簽。例如,
阿里巴巴淘系技術(shù)https://www.zhihu.com/question/265479171/answer/1495497483
中科智云全球首發(fā)全新主動(dòng)學(xué)習算法框架,顛覆傳統大量樣本和人力標注模式https://www.ofweek.com/ai/2021-07/ART-201713-8210-30509389.html
在安全風(fēng)控異常檢測等領(lǐng)域,異常數據遠遠少于正常的數據,而對網(wǎng)絡(luò )上的大量數據都進(jìn)行標注也是極其不合理的,但是主動(dòng)學(xué)習能夠選擇性地標注這些數據。
無(wú)人駕駛等機器人領(lǐng)域的應用:在很多機器人領(lǐng)域,都需要收集大量的有標簽數據來(lái)訓練。尤其是非?;鸬臒o(wú)人駕駛領(lǐng)域。在無(wú)人駕駛領(lǐng)域,無(wú)人駕駛汽車(chē)對環(huán)境的感知尤為重要,感知的好壞直接影響決策的質(zhì)量,對無(wú)人駕駛汽車(chē)的安全性有至關(guān)重要的作用。
感知模型多用深度學(xué)習構建,數據的重要性不言而喻,尤其是標注數據。而真實(shí)場(chǎng)景的無(wú)人駕駛環(huán)境種類(lèi)多、復雜,為了保證模型性能,大多數公司需要利用汽車(chē)在實(shí)際場(chǎng)景中運行收集到的圖像、點(diǎn)云等數據進(jìn)行訓練。面對這樣龐大的數據量,給每一個(gè)樣本都打上標簽幾乎是不可能實(shí)現的任務(wù),而利用主動(dòng)學(xué)習選擇最有價(jià)值的樣本(可能是當前模型預測的不確定性大)再人工標注,繼續訓練模型,從而盡可能地提高模型的性能,提高了穩定性和安全性。例如,特斯拉等
特斯拉挑戰視覺(jué)極限https://www.bilibili.com/read/cv7621643
主動(dòng)學(xué)習如何改善自動(dòng)駕駛夜間行人檢測【NVIDIA】https://www.bilibili.com/video/BV1xV411o72V/
Waymo和特斯拉背后的訓練系統究竟有什么特別之處?https://zhuanlan.zhihu.com/p/400834629
智能醫療診斷等領(lǐng)域:在醫療領(lǐng)域,深度學(xué)習的發(fā)展為包括診斷在內的多個(gè)方面帶來(lái)了革命性的發(fā)展。數據驅動(dòng)的方法必然需求大量的有標注數據,而標注醫療圖像不僅耗時(shí)耗力,而且需要特定的專(zhuān)業(yè)知識,所以利用主動(dòng)學(xué)習選擇模型難以預測的樣本進(jìn)行選擇地標注是非常有實(shí)際意義的。
有很多論文在研究主動(dòng)學(xué)習在醫療領(lǐng)域的應用,但在實(shí)際應用和落地中,醫療診斷面臨的最首要的問(wèn)題還是精度和泛化性能。由于醫療數據是小樣本,這些最重要和最基本的問(wèn)題沒(méi)有被徹底解決,所以主動(dòng)學(xué)習的熱度并不大。但是還是有一些公司在應用,例如騰訊 AI Lab 使用主動(dòng)學(xué)習和難例挖掘方案
中國首款智能顯微鏡獲批進(jìn)入臨床:病理診斷 AI 化,騰訊 AI Lab 打造https://new.qq.com/omn/20200409/20200409A0BGWI00.html
在我看來(lái),醫療數據獲得的量本身就少的話(huà),就沒(méi)必要應用主動(dòng)學(xué)習了,因為在有限的樣本下,即使都標注都很難達到一個(gè)滿(mǎn)意的性能,更別說(shuō)去做選擇了。但是真正有需求的場(chǎng)景是,
1. 有大量的無(wú)標簽醫療數據,需要從中選擇有價(jià)值的進(jìn)行標注,例如從視頻數據(胃腸鏡視頻)標注圖像進(jìn)行檢測等;
2. 真正實(shí)現基本性能,能夠落地部署后,仍需要長(cháng)期在使用過(guò)程中收集數據,進(jìn)行標注,但是由于這個(gè)過(guò)程是一直持續下去,長(cháng)久的工作,所以對于這樣大量的無(wú)標簽數據也需要進(jìn)行主動(dòng)學(xué)習選擇標注。
總之,主動(dòng)學(xué)習應用的場(chǎng)景是針對有大量無(wú)標簽數據(至少不缺),如何節省標注工作量使得模型達到滿(mǎn)意的性能。在深度學(xué)習爆炸的時(shí)代,各種任務(wù)和應用都考慮采用數據驅動(dòng)的 learning 的方法來(lái)解決,這就對數據的需求更高了。實(shí)際應用中,既不可能完全放棄標簽,也不可能放棄無(wú)標注數據,而主動(dòng)學(xué)習恰恰能夠提供一個(gè)較合理的權宜之計,既要標注有價(jià)值的數據,又不需要全部標注,選擇性地標注。
七、實(shí)際應用可能存在的問(wèn)題
雖然考慮到主動(dòng)學(xué)習的出發(fā)點(diǎn)和要解決的問(wèn)題都比較實(shí)際,但是目前的主動(dòng)學(xué)習方法在實(shí)際應用的話(huà)還是存在一些問(wèn)題。
性能不穩定:制約主動(dòng)學(xué)習最大的問(wèn)題就是性能不穩定。主動(dòng)學(xué)習是根據自己指定的選擇策略從樣本中挑選,那么這個(gè)過(guò)程中策略和數據樣本就是影響性能的兩個(gè)很重要的因素。對于非常冗余的數據集,主動(dòng)學(xué)習往往會(huì )比隨機采樣效果要好,但是對于樣本數據非常多樣,冗余性較低的數據集,主動(dòng)學(xué)習有的時(shí)候會(huì )存在比隨機采樣還差的效果。數據樣本的分布還影響不同主動(dòng)學(xué)習的方法,比如基于不確定性的方法和基于多樣性的方法,在不同數據集上的效果并不一致,這種性能的不穩定是制約人們應用主動(dòng)學(xué)習的一個(gè)重要因素。
在實(shí)際應用中,需要先根據主動(dòng)學(xué)習進(jìn)行數據選擇和標注,如果此時(shí)的策略還不如隨機采樣,人們并不能及時(shí)改變或者止損,因為數據已經(jīng)被標注了,沉沒(méi)成本已經(jīng)產(chǎn)生了。而優(yōu)化網(wǎng)絡(luò )結構和性能的這些方法就不存在這個(gè)問(wèn)題,人們可以一直嘗試不同的方法和技巧使得性能達到最好,修改和嘗試的損失很小。
而主動(dòng)學(xué)習被要求得更加苛刻,幾乎需要將設計好的策略拿來(lái)直接應用就必須要 work 才行,如果不 work,那些被選擇的樣本還是被標注了,還是損失時(shí)間和金錢(qián)??量痰囊蠛筒环€定的性能導致人們還不如省下這個(gè)精力,直接采用隨機的標注方式。
臟數據的挑戰:現在幾乎所有的論文都在公開(kāi)的數據集、現成的數據集上進(jìn)行測試和研究。而這些數據集其實(shí)已經(jīng)被選擇和篩選過(guò)了,去除了極端的離群值,甚至會(huì )考慮到樣本平衡,人為的給少樣本的類(lèi)別多標注一些,多樣本的類(lèi)別少標注一些。而實(shí)際應用中,數據的狀況和這種理想數據集相差甚遠。主動(dòng)學(xué)習常用不確定性的選擇策略,不難想象,噪聲較大的樣本甚至離群值總會(huì )被選擇并標注,這種樣本可能不僅不會(huì )提升模型的性能,甚至還會(huì )使性能變差。
實(shí)際中還存在 OOD(out of distribution)的問(wèn)題,例如想訓練一個(gè)貓狗分類(lèi)器,直接從網(wǎng)絡(luò )中按關(guān)鍵字搜索貓狗收集大量圖片,里邊可能存在一些老虎、獅子、狼等不在貓狗類(lèi)別的無(wú)關(guān)樣本,但是他們的不確定性是非常高的,被選中的話(huà),并不會(huì )提升模型的性能。
難以遷移:主動(dòng)學(xué)習是一種數據選擇策略,那么實(shí)際應用中必然需求更通用、泛化性更好的主動(dòng)學(xué)習策略。而目前的主動(dòng)學(xué)習策略難以在不同域、不同任務(wù)之間進(jìn)行遷移,比如設計了一個(gè)貓狗分類(lèi)任務(wù)的主動(dòng)學(xué)習策略,基于不確定性或多樣性,達到了較好的性能,現在需要做一個(gè)新的雞鴨分類(lèi)的任務(wù),那么是否還需要重新設計一個(gè)策略?如果任務(wù)是病變組織的分類(lèi)呢?
由于不同任務(wù)的數據分布特點(diǎn)可能不一樣,不同任務(wù)的難易不一樣,無(wú)法保證主動(dòng)學(xué)習的策略能夠在不同數據不同任務(wù)中通用,往往需要針對固定的任務(wù)設計一個(gè)主動(dòng)學(xué)習策略。這樣就耗費了精力,如果能有一個(gè)通用性好的主動(dòng)學(xué)習策略,那么就可以被不同任務(wù)遷移,被更廣泛地應用,甚至直接將其部署為通用標注軟件,為各種任務(wù)、數據集,提供主動(dòng)選擇和標注功能。
交互不便:數據選擇策略與標注過(guò)程聯(lián)系緊密,理想的流程是,有一個(gè)整合的軟件能夠提供主動(dòng)數據選擇,然后提供交互界面進(jìn)行標注,這就是將主動(dòng)學(xué)習流程與標注軟件結合。僅有高效的主動(dòng)學(xué)習策略,而不方便標注交互,也會(huì )造成額外的精力浪費。在流程上,現在主動(dòng)學(xué)習普遍是選擇出一批待標注的樣本后,交給人們去標注,而期望人們能盡快標注交給模型,模型繼續訓練后再次選擇。
人們標注的時(shí)候,模型既不能訓練,主動(dòng)學(xué)習也不進(jìn)行其他操作,是個(gè)串行的過(guò)程,需求等待人工標注結束后,才能進(jìn)行接下來(lái)的訓練。這樣的流程就不那么方便和高效,想象把主動(dòng)學(xué)習+標注的系統給醫生應用,策略先選出了一些樣本,醫生僅標注這些樣本就標注了幾天,然后再給模型訓練,模型訓練一段時(shí)間后,又選擇出一些樣本給醫生,醫生和模型互相等待對方的操作,降低了效率和便利性。
下面我介紹一些主動(dòng)學(xué)習目前最新的閱讀價(jià)值較高的論文,供大家把握研究方向和熱點(diǎn)。如果大家有興趣,可以持續關(guān)注我 github 上的 awesome-active-learning paper list,我會(huì )實(shí)時(shí)更新有價(jià)值的主動(dòng)學(xué)習方面的工作,供大家學(xué)習和交流。 8.1 主動(dòng)學(xué)習問(wèn)題和方法的探究
目前主動(dòng)學(xué)習的基本方法和問(wèn)題還存在一些不足,有一些最新的方法試圖解決這些問(wèn)題。
Mind Your Outliers! Investigating the Negative Impact of Outliers on Active Learning for Visual Question Answering (作者之一,李飛飛)https://arxiv.org/abs/2107.02331
主動(dòng)學(xué)習有望緩解監督式機器學(xué)習的海量數據需求:它已成功地將樣本效率提高了一個(gè)數量級,例如主題分類(lèi)和對象識別等傳統任務(wù)。然而,作者發(fā)現與這一現象形成鮮明對比的是:在視覺(jué)問(wèn)答任務(wù)的 5 個(gè)模型和 4 個(gè)數據集中,各種各樣的主動(dòng)學(xué)習方法未能勝過(guò)隨機選擇。為了理解這種差異,作者在每個(gè)示例的基礎上分析了 8 種主動(dòng)學(xué)習方法,并將問(wèn)題確定為集體異常值——主動(dòng)學(xué)習方法更喜歡獲取但模型無(wú)法學(xué)習的一組示例(例如,詢(xún)問(wèn)文本的問(wèn)題在圖像中或需要外部知識)。
通過(guò)系統的消融實(shí)驗和定性可視化,作者驗證了集體異常值是導致基于池的主動(dòng)學(xué)習退化的普遍現象。值得注意的是,作者表明,隨著(zhù)主動(dòng)學(xué)習池中集體異常值的數量減少,主動(dòng)學(xué)習樣本效率顯著(zhù)提高。
Contrastive Coding for Active Learning Under Class Distribution Mismatch:https://openaccess.thecvf.com/content/ICCV2021/html/Du_Contrastive_Coding_for_Active_Lea
基于以下假設:標記數據和未標記數據是從同一類(lèi)分布中獲得的,主動(dòng)學(xué)習 (AL) 是成功的。然而,它的性能在類(lèi)別分布不匹配的情況下會(huì )惡化,其中未標記的數據包含許多標記數據的類(lèi)分布之外的樣本。為了有效地處理類(lèi)分布不匹配下的AL問(wèn)題,作者提出了一種基于對比編碼的 AL 框架,名為 CCAL。
與現有的 AL 方法專(zhuān)注于選擇信息量最大的樣本進(jìn)行標注不同,CCAL 通過(guò)對比學(xué)習提取語(yǔ)義和獨特的特征,并將它們組合在查詢(xún)策略中,以選擇具有匹配類(lèi)別的信息量最大的未標記樣本。理論上,作者證明了 CCAL 的 AL 誤差具有嚴格的上限。
LADA: Look-Ahead Data Acquisition via Augmentation for Active Learning:https://arxiv.org/abs/2011.04194
在主動(dòng)學(xué)習的獲取過(guò)程中尚未考慮從數據增強產(chǎn)生的虛擬實(shí)例的潛在收益。在數據獲取的過(guò)程中,數據增強將選擇并生成對訓練模型提供信息的數據實(shí)例。因此,作者提出了通過(guò)增強或 LADA 的前瞻數據采集來(lái)集成數據采集和數據增強。在獲取過(guò)程之前,LADA 考慮 1)選擇未標記的數據實(shí)例和 2)通過(guò)數據增強生成的虛擬數據實(shí)例。此外,為了增強虛擬數據實(shí)例的信息量,LADA 優(yōu)化了數據增強策略以最大化預測獲取分數,從而產(chǎn)生了 InfoMixup 和 InfoSTN 的提議。由于 LADA 是一個(gè)可推廣的框架,作者試驗了各種采集和增強方法的組合。
8.2 主動(dòng)學(xué)習與半監督學(xué)習結合
由于半監督學(xué)習展示出了優(yōu)異的性能,在標簽不足的情況下,如果能將主動(dòng)學(xué)習與半監督學(xué)習結合,將會(huì )取得更優(yōu)異的性能。
Semi-Supervised Active Learning for Semi-Supervised Models: Exploit Adversarial Examples With Graph-Based Virtual Labels:https://openaccess.thecvf.com/content/ICCV2021/html/Guo_Semi-Supervised_Active_Learnin
盡管當前主流方法開(kāi)始結合 SSL 和 AL(SSL-AL)來(lái)挖掘未標記樣本的多樣化表示,但這些方法的全監督任務(wù)模型仍然僅使用標記數據進(jìn)行訓練。此外,這些方法的 SSL-AL 框架存在不匹配問(wèn)題。在這里,作者提出了一個(gè)基于圖的 SSL-AL 框架來(lái)釋放 SSL 模型的能力并進(jìn)行有效的 SSL-AL 交互。
在該框架中,SSL 利用基于圖的標簽傳播為未標記的樣本提供偽標簽,渲染 AL 樣本的結構分布并提升 AL。AL 在決策邊界附近找到樣本,利用對抗性示例幫助 SSL 執行更好的標簽傳播。閉環(huán)中的信息交換實(shí)現了SSL和AL的相互增強。
8.3 主動(dòng)學(xué)習與無(wú)監督域自適應結合
無(wú)監督域自適應要對齊目標域與源域,使模型利用源域的數據和標簽,在無(wú)標簽的目標域上取得較好的性能。目前出現一些工作考慮源域和目標域的關(guān)系,設計了主動(dòng)學(xué)習策略提升模型在目標域的性能。
Multi-Anchor Active Domain Adaptation for Semantic Segmentation:https://arxiv.org/abs/2108.08012
將目標域的分布無(wú)條件地與源域對齊可能會(huì )扭曲目標域數據的特有的信息。為此,作者提出了一種新穎的基于多錨點(diǎn)的主動(dòng)學(xué)習策略,以協(xié)助域自適應語(yǔ)義分割任務(wù)。通過(guò)創(chuàng )新地采用多個(gè)點(diǎn)而不是單個(gè)質(zhì)心,可以更好地將源域表征為多模態(tài)分布,實(shí)習從目標域中選擇更具代表性和互補性的樣本。手動(dòng)注釋這些樣本的工作量很小,可以有效緩解目標域分布的失真,從而獲得較大的性能增益。另外還采用多錨策略來(lái)對目標分布進(jìn)行建模。通過(guò)軟對齊損失,對多個(gè)錨點(diǎn)周?chē)o湊的目標樣本的潛在表示進(jìn)行正則化,可以實(shí)現更精確的分割。
8.4 主動(dòng)學(xué)習與知識蒸餾結合
知識蒸餾過(guò)程中,teacher 給 student 傳遞知識,但是什么樣的樣本能夠幫助這一過(guò)程,也是主動(dòng)學(xué)習可以研究的一個(gè)方向。
Active Learning for Lane Detection: A Knowledge Distillation Approach:https://openaccess.thecvf.com/content/ICCV2021/html/Peng_Active_Learning_for_Lane_Detection_A_
作者發(fā)現現有的主動(dòng)學(xué)習方法在車(chē)道檢測方面表現不佳,原因是兩方面的。一方面,大多數方法基于熵來(lái)評估數據不確定性,這在車(chē)道檢測中是不可取的,因為它鼓勵選擇車(chē)道很少甚至根本沒(méi)有車(chē)道的圖像。另一方面,現有的方法沒(méi)有意識到車(chē)道標注的噪聲,這是由嚴重遮擋和車(chē)道標記不清晰引起的。
在本文中,作者構建了一個(gè)新穎的知識蒸餾框架,并基于 student 模型所學(xué)的知識評估圖像的不確定性。作者表明,所提出的不確定性度量克服了上述兩個(gè)問(wèn)題。為了減少數據冗余,作者研究了圖像樣本的影響集(influence set),并提出了一種新的多樣性度量。最后,作者結合了不確定性和多樣性指標,提出了一種用于數據選擇的貪婪算法。
8.5 主動(dòng)學(xué)習與對比學(xué)習結合
對比學(xué)習最近勢頭比較猛,最近也有主動(dòng)學(xué)習與對比學(xué)習結合解決對比學(xué)習的問(wèn)題,大家可以欣賞一下。
Active Contrastive Learning of Audio-Visual Video Representations:https://arxiv.org/abs/2009.09805
對比學(xué)習已被證明可以通過(guò)最大化實(shí)例的不同視圖之間的互信息(MI)的下限來(lái)生成音頻和視覺(jué)數據的可概括表示。然而,獲得嚴格的下限需要 MI 中的樣本大小指數,因此需要大量的負樣本。我們可以通過(guò)構建一個(gè)大型的基于隊列的字典來(lái)合并更多的樣本,但是即使有大量的負樣本,性能提升也存在理論上的限制。
作者假設隨機負采樣導致高度冗余的字典,導致下游任務(wù)的次優(yōu)表示。在本文中,作者提出了一種主動(dòng)對比學(xué)習方法,該方法構建了一個(gè) actively sampled 字典,其中包含多樣化和信息豐富的樣本,從而提高了負樣本的質(zhì)量,并提高了數據中互信息量高的任務(wù)的性能,例如,視頻分類(lèi)。
8.6 利用強化學(xué)習進(jìn)行主動(dòng)學(xué)習
Reinforced active learning for image segmentation:https://arxiv.org/abs/2002.06583
基于學(xué)習的語(yǔ)義分割方法有兩個(gè)固有的挑戰。首先,獲取像素級標簽既昂貴又耗時(shí)。其次,現實(shí)的分割數據集是高度不平衡的:某些類(lèi)別比其他類(lèi)別豐富得多,使性能偏向于最具代表性的類(lèi)別。在本文中,作者感興趣的是基于池的方式進(jìn)行人工標記工作,最大限度地減少這種工作,同時(shí)最大限度地提高分割模型在測試集上的性能。作者提出了一種新的基于深度強化學(xué)習(RL)的語(yǔ)義分割主動(dòng)學(xué)習策略。
智能體學(xué)習一種策略,從未標記的數據池中選擇一小部分信息豐富的圖像區域進(jìn)行標記。區域選擇決策是基于被訓練的分割模型的預測和不確定性做出的。作者的方法提出了一種用于主動(dòng)學(xué)習的 DQN,使其能適應大規模的語(yǔ)義分割問(wèn)題。作者在 CamVid 和大規模數據集 Cityscapes 中測試。
在 Cityscapes 上,在相同性能下,作者的基于深度強化學(xué)習的區域的 DQN 方法比最具競爭力的基線(xiàn)減少大約 30% 的額外標記數據。此外,作者發(fā)現與基線(xiàn)相比,作者的方法選擇了更多代表性不足的類(lèi)別標簽,從而提高它們的性能并有助于減輕類(lèi)別不平衡。
8.7 主動(dòng)學(xué)習在點(diǎn)云方面
點(diǎn)云比圖像的標注時(shí)間更長(cháng)更費精力,尤其是像素級的點(diǎn)云標注。近期主動(dòng)學(xué)習在點(diǎn)云方面的工作漸漸嶄露頭角,而且效果非常驚人,值得期待。下面我介紹一篇有代表性的點(diǎn)云語(yǔ)義分割的工作。
ViewAL: Active Learning with Viewpoint Entropy for Semantic Segmentation:https://arxiv.org/abs/1911.11789
作者提出了 ViewAL,這是一種新穎的語(yǔ)義分割主動(dòng)學(xué)習策略,它利用了多視圖數據集中的視點(diǎn)一致性。作者的核心思想是,跨視點(diǎn)的模型預測的不一致提供了非??煽康牟淮_定性度量,并鼓勵模型在不考慮觀(guān)察對象的視點(diǎn)的情況下表現良好。
為了結合這種不確定性度量,作者引入了一種新的視點(diǎn)熵公式,這是作者主動(dòng)學(xué)習策略的基礎。此外,作者提出了超像素級別的不確定性計算,它利用了分割任務(wù)中固有的局部信息,直接降低了注釋成本。視點(diǎn)熵和超像素的聯(lián)合使用有效地選擇了具有高度信息量的樣本。
8.8 主動(dòng)學(xué)習在目標檢測方面
最新也有一些主動(dòng)學(xué)習的文章開(kāi)始結合到目標檢測中,針對目標檢測定義策略。目標檢測不僅存在分類(lèi)還存在定位,所以對于圖像的不確定性定義和建模更加多樣,使得更容易創(chuàng )新自己的主動(dòng)學(xué)習方法,大家可以嘗試做做這方面的工作。
Multiple instance active learning for object detection:https://arxiv.org/abs/2104.02324
盡管用于圖像識別的主動(dòng)學(xué)習取得了實(shí)質(zhì)性進(jìn)展,但仍然缺乏指定用于目標檢測的實(shí)例級主動(dòng)學(xué)習方法。在本文中,作者提出了多實(shí)例主動(dòng)目標檢測(MI-AOD),通過(guò)觀(guān)察實(shí)例級的不確定性來(lái)選擇信息量最大的圖像進(jìn)行檢測器訓練。MI-AOD 定義了一個(gè)實(shí)例不確定性學(xué)習模塊,它利用在標記集上訓練的兩個(gè)對抗性實(shí)例分類(lèi)器的差異來(lái)預測未標記集的實(shí)例不確定性。
MI-AOD 將未標記的圖像視為實(shí)例包,將圖像中的特征錨點(diǎn)視為實(shí)例,并通過(guò)以多實(shí)例學(xué)習(MIL)方式重新加權實(shí)例來(lái)估計圖像的不確定性。反復迭代實(shí)例不確定性學(xué)習和重加權有助于抑制噪聲實(shí)例,彌合實(shí)例不確定性和圖像級不確定性之間的差距。
九、總結
總而言之,主動(dòng)學(xué)習現在還有很多點(diǎn)可以繼續研究,包括但不限于:
1. 從主動(dòng)學(xué)習基本理論和問(wèn)題出發(fā),完善和改進(jìn);2. 與其他 learning 方法或概念結合,改進(jìn)主動(dòng)學(xué)習或該方法,例如半監督、域自適應、知識蒸餾和強化學(xué)習等等;3. 應用到新的背景和任務(wù)(和主動(dòng)學(xué)習結合的 paper 少的)中,例如點(diǎn)云分類(lèi)分割、醫療圖像、目標檢測等等。4. ......
既可以在現有的方法的基礎上改進(jìn),又可以針對新的特定任務(wù)和具體問(wèn)題設計自己的主動(dòng)學(xué)習策略。無(wú)論是哪方面,主動(dòng)學(xué)習都是存在很多繼續研究的點(diǎn)。
主動(dòng)學(xué)習既有重要的應用價(jià)值又還存在著(zhù)一些問(wèn)題,是學(xué)術(shù)界和工業(yè)界都可以進(jìn)行研究的點(diǎn)。希望對主動(dòng)學(xué)習感興趣的朋友,可以一起多多討論和交流。我以后也會(huì )在知乎和 awesome-active-learning 上持續為大家更新一些主動(dòng)學(xué)習領(lǐng)域優(yōu)異的工作。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。