<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 針對不平衡問(wèn)題建模的有趣Loss

針對不平衡問(wèn)題建模的有趣Loss

發(fā)布人:數據派THU 時(shí)間:2023-07-25 來(lái)源:工程師 發(fā)布文章

文章綜述了康奈爾大學(xué)、康奈爾科技、谷歌Brain和Alphabet公司的基于有效樣本數的類(lèi)平衡損失(CB損失)。使用每個(gè)類(lèi)的有效樣本數量來(lái)重新為每個(gè)類(lèi)的Loss分配權重。


1. 類(lèi)別平衡問(wèn)題

圖片

圖片


兩個(gè)類(lèi),分別來(lái)自長(cháng)尾數據集的頭部和尾部(iNaturalist 2017 dataset)假設有像上面那樣的不平衡的類(lèi)。head:對于索引小的類(lèi),這些類(lèi)有較多的樣本。Tail:對于大索引的類(lèi),這些類(lèi)的樣本數量較少。黑色實(shí)線(xiàn):直接在這些樣本上訓練的模型偏向于優(yōu)勢類(lèi)。紅色虛線(xiàn)通過(guò)反向類(lèi)頻率來(lái)重新加權損失可能會(huì )在具有高類(lèi)不平衡的真實(shí)數據上產(chǎn)生較差的性能。藍虛線(xiàn):設計了一個(gè)類(lèi)平衡項,通過(guò)反向有效樣本數來(lái)重新加權損失。


2. 有效樣本數量


2.1. 定義


圖片

數據間信息重疊,左:特征空間S,中:1個(gè)樣本數據的單位體積,右:數據間信息重疊


直覺(jué)上,數據越多越好。但是,由于數據之間存在信息重疊,隨著(zhù)樣本數量的增加,模型從數據中提取的邊際效益會(huì )減少


左:給定一個(gè)類(lèi),將該類(lèi)的特征空間中所有可能數據的集合表示為S。假設S的體積為N且N≥1。中:S子集中的每個(gè)樣本的單位體積為1,可能與其他樣本重疊。Right:從S中隨機抽取每個(gè)子集,覆蓋整個(gè)S集合。采樣的數據越多,S的覆蓋率就越好。期望的采樣數據總量隨著(zhù)樣本數量的增加而增加,以N為界。


因此,將有效樣本數定義為樣本的期望體積。


這個(gè)想法是通過(guò)使用一個(gè)類(lèi)的更多數據點(diǎn)來(lái)捕捉邊際效益的遞減。由于現實(shí)世界數據之間的內在相似性,隨著(zhù)樣本數量的增加,新添加的樣本極有可能是現有樣本的近重復。另外,cnn是用大量的數據增廣來(lái)訓練的,所有的增廣實(shí)例也被認為與原始實(shí)例相同。對于一個(gè)類(lèi),N可以看作是唯一原型的數量。


2.2. 數學(xué)公式


圖片

新的采樣數據與以前的采樣數據重疊或不重疊


En表示樣本的有效數量(期望體積)。為了簡(jiǎn)化問(wèn)題,不考慮部分重疊的情況。也就是說(shuō),一個(gè)新采樣的數據點(diǎn)只能以?xún)煞N方式與之前的采樣數據交互:完全在之前的采樣數據集中,概率為p,或完全在原來(lái)的數據集之外,的概率為1- p。


有效數字:En = (1?β^n)/(1?β),其中,β = (N? 1)/N,這個(gè)命題可以用數學(xué)歸納法證明。當E1 = 1時(shí),不存在重疊,E1 =(1?β^1)/(1?β) = 1成立。假設已經(jīng)有n?1個(gè)樣本,并且即將對第n個(gè)樣本進(jìn)行采樣,現在先前采樣數據的期望體積為En ?1,而新采樣的數據點(diǎn)與先前采樣點(diǎn)重疊的概率為 p = E(n?1)/N。因此,第n個(gè)實(shí)例采樣后的期望體積為:


圖片


此時(shí):


圖片


我們有:


圖片


上述命題表明有效樣本數是n的指數函數。超參數β∈[0,1)控制En隨著(zhù)n的增長(cháng)有多快。


3. 類(lèi)別平衡 Loss (CB Loss)


類(lèi)別平衡(CB)loss可以寫(xiě)成:

圖片


其中,ny是類(lèi)別y的ground-truth的數量。β = 0對應沒(méi)有重新加權, β → 1對應于用反向頻率進(jìn)行加權。


提出的有效樣本數的新概念使我們能夠使用一個(gè)超參數β來(lái)平滑地調整無(wú)重權和反向類(lèi)頻率重權之間的類(lèi)平衡項。


所提出的類(lèi)平衡項是模型不可知的和損失不可知的,因為它獨立于損失函數L和預測類(lèi)概率p的選擇。


3.1. 類(lèi)別平衡的 Softmax 交叉熵損失


給定一個(gè)標號為y的樣本,該樣本的softmax交叉熵(CE)損失記為:


圖片


假設類(lèi)y有ny個(gè)訓練樣本,類(lèi)平衡(CB)softmax交叉熵損失為:


圖片


3.2. 類(lèi)別平衡的 Sigmoid 交叉熵損失


當對多類(lèi)問(wèn)題使用sigmoid函數時(shí),網(wǎng)絡(luò )的每個(gè)輸出都執行一個(gè)one-vs-all分類(lèi),以預測目標類(lèi)在其他類(lèi)中的概率。在這種情況下,Sigmoid不假定類(lèi)之間的互斥性。由于每個(gè)類(lèi)都被認為是獨立的,并且有自己的預測器,所以sigmoid將單標簽分類(lèi)和多標簽預測統一起來(lái)。這是一個(gè)很好的屬性,因為現實(shí)世界的數據通常有多個(gè)語(yǔ)義標簽。sigmoid交叉熵(CE)損失可以寫(xiě)成:


圖片


類(lèi)平衡(CB) sigmoid交叉熵損失為:


圖片


3.3. 類(lèi)別平衡 Focal Loss


Focal loss (FL)是在RetinaNet中提出的,可以減少分類(lèi)很好的樣本的損失,聚焦于困難的樣本。


圖片


類(lèi)別平衡的 (CB) Focal Loss為:


圖片


4. 實(shí)驗結果


4.1. 數據集


圖片

用于評估類(lèi)平衡損失有效性的數據集


試驗了CIFAR-10和CIFAR-100的5個(gè)不平衡系數分別為10、20、50、100和200的長(cháng)尾版本。iNaturalist 和ILSVRC是天然的類(lèi)別不平衡數據集。


圖片

在人工創(chuàng )建的具有不同不平衡因子的長(cháng)尾CIFAR-100數據集中,每類(lèi)訓練樣本的個(gè)數


上面顯示了每個(gè)類(lèi)具有不同不平衡因素的圖像數量。


4.2. CIFAR 數據集


圖片

ResNet-32在長(cháng)尾CIFAR-10和CIFAR-100測試集上用不同的損失函數訓練的分類(lèi)錯誤率


loss類(lèi)型的超參數搜索空間為{softmax, sigmoid, focal}, [focal loss]的超參數搜索空間為β∈{0.9,0.99,0.999,0.9999},γ∈{0.5,1.0,2.0}。在CIFAR-10上,最佳的β一致為0.9999。但在CIFAR-100上,不同不平衡因子的數據集往往有不同且較小的最優(yōu)β。


圖片

有和沒(méi)有類(lèi)平衡項時(shí)的分類(lèi)錯誤率


在CIFAR-10上,根據β = 0.9999重新加權后,有效樣本數與樣本數接近。這意味著(zhù)CIFAR-10的最佳重權策略與逆類(lèi)頻率重權類(lèi)似。在CIFAR-100上,使用較大的β的性能較差,這表明用逆類(lèi)頻率重新加權不是一個(gè)明智的選擇,需要一個(gè)更小的β,具有更平滑的跨類(lèi)權重。例如,一個(gè)特定鳥(niǎo)類(lèi)物種的獨特原型數量應該小于一個(gè)一般鳥(niǎo)類(lèi)類(lèi)的獨特原型數量。由于CIFAR-100中的類(lèi)比CIFAR-10更細粒度,因此CIFAR-100的N比CIFAR-10小。


4.3. 大規模數據集


圖片

在所有數據集驗證集上,使用不同損失函數訓練的大規模數據集上的Top-1和Top-5分類(lèi)錯誤率


使用了類(lèi)平衡的Focal Loss,因為它具有更大的靈活性,并且發(fā)現β = 0.999和γ = 0.5在所有數據集上都獲得了合理的良好的性能。值得注意的是,使用了類(lèi)別平衡的Focal Loss來(lái)代替Softmax交叉熵,ResNet-50能夠達到和ResNet-152相應的性能。


圖片

ILSVRC 2012(左)和iNaturalist 2018(右)的ResNet-50訓練曲線(xiàn)


以上數字顯示類(lèi)平衡的Focal Loss損失經(jīng)過(guò)60個(gè)epochs的訓練后,開(kāi)始顯示其優(yōu)勢。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>