<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > 用PCA還是LDA?特征抽取經(jīng)典算法PK

用PCA還是LDA?特征抽取經(jīng)典算法PK

作者: 時(shí)間:2019-01-09 來(lái)源:格創(chuàng )東智 收藏

  在之前的格物匯文章中,我們介紹了特征抽取的經(jīng)典算法——主成分分析(),了解了算法實(shí)質(zhì)上是進(jìn)行了一次坐標軸旋轉,盡可能讓數據映射在新坐標軸方向上的方差盡可能大,并且讓原數據與新映射的數據在距離的變化上盡可能小。方差較大的方向代表數據含有的信息量較大,建議保留。方差較小的方向代表數據含有的信息量較少,建議舍棄。今天我們就來(lái)看一下的具體應用案例和特征映射的另一種方法:線(xiàn)性判別分析()。

本文引用地址:http://dyxdggzs.com/article/201901/396508.htm

  PCA案例

  在機器學(xué)習中,所使用的數據往往維數很大,我們需要使用降維的方法來(lái)突顯信息含量較大的數據,PCA就是一個(gè)很好的降維方法。下面我們來(lái)看一個(gè)具體的應用案例,為了簡(jiǎn)單起見(jiàn),我們使用一個(gè)較小的數據集來(lái)展示:

  


  顯而易見(jiàn),我們數據有6維,維數雖然不是很多但不一定代表數據不可以降維。我們使用sklearn中的PCA算法擬合數據集得到如下的結果:

  


  我們可以看到經(jīng)過(guò)PCA降維后依然生成了新的6個(gè)維度,但是數據映射在每一個(gè)維度上的方差大小不一樣。我們會(huì )對每一個(gè)維度上的方差進(jìn)行歸一化,每一個(gè)維度上的方差量我們稱(chēng)為可解釋的方差量(Explained Variance)。由圖可知,每一個(gè)維度上可解釋方差占比為:0.4430,0.2638,0.1231,0.1012,0.0485,0.0204。根據經(jīng)驗來(lái)說(shuō)我們期望可解釋的方差量累計值在80%以上較好,因此我們可以選擇降維降到3維(82.99%)或者4維(93.11%),括號中的數字為累計可解釋的方差量,最后兩維方差解釋只有7%不到,建議舍去。圖中的柱狀圖表示原維度在新坐標軸上的映射向量大小。在前兩維度上表現如下圖所示:

  


  PCA雖然能實(shí)現很好的降維效果,但是它卻是一種無(wú)監督的方法。實(shí)際上我們更加希望對于有類(lèi)別標簽的數據(有監督),也能實(shí)現降維,并且降維后能更好的區分每一個(gè)類(lèi)。此時(shí),特征抽取的另一種經(jīng)典算法——線(xiàn)性判別分析()就閃亮登場(chǎng)了。

  簡(jiǎn)介

  LDA是一種監督學(xué)習的降維技術(shù),也就是說(shuō)它的數據集的每個(gè)樣本是有類(lèi)別輸出的。這點(diǎn)和PCA不同。PCA是不考慮樣本類(lèi)別輸出的無(wú)監督降維技術(shù)。LDA的思想可以用一句話(huà)概括,就是“投影后類(lèi)內方差最小,類(lèi)間方差最大”。什么意思呢? 我們要將數據在低維度上進(jìn)行投影,投影后希望每一種類(lèi)別數據的投影點(diǎn)盡可能的接近,而不同類(lèi)別的數據的類(lèi)別中心之間的距離盡可能的大。

  


  上圖中提供了兩種投影方式,哪一種能更好的滿(mǎn)足我們的標準呢?從直觀(guān)上可以看出,右圖要比左圖的投影效果好,因為右圖的黑色數據和藍色數據各個(gè)較為集中,且類(lèi)別之間的距離明顯。左圖則在邊界處數據混雜。LDA的降維效果更像右圖,它能在新坐標軸上優(yōu)先區分出兩個(gè)類(lèi)別,它是如何實(shí)現的呢?

  LDA的原理

  LDA的主要思想是“投影后類(lèi)內方差最小,類(lèi)間方差最大”。實(shí)質(zhì)上就是很好的區分出兩個(gè)類(lèi)的分布。我們知道衡量數據分布的兩個(gè)重要指標是均值和方差,對于每一個(gè)類(lèi),他們的定義如下:

  


  與PCA一樣,LDA也是對數據的坐標軸進(jìn)行一次旋轉,假設旋轉的轉移矩陣是w,那么新的旋轉數據可以表示為:

  


  同理,兩個(gè)類(lèi)別的中心點(diǎn)也轉換成了:

  


  


  


  我們求解這個(gè)最優(yōu)化問(wèn)題,即可求出轉移變換矩陣w,即LDA的最終結果。

  PCA vs LDA

  LDA用于降維,和PCA有很多相同,也有很多不同的地方,因此值得好好的比較一下兩者的降維異同點(diǎn)。首先我們看看相同點(diǎn):

  1、兩者均可以對數據進(jìn)行降維

  2、兩者在降維時(shí)均使用了矩陣特征分解的思想

  3、兩者都假設數據符合高斯分布

  我們接著(zhù)看看不同點(diǎn):

  1、LDA是有監督的降維方法,而PCA是無(wú)監督的降維方法

  2、LDA降維最多降到類(lèi)別數k-1的維數,而PCA沒(méi)有這個(gè)限制

  3、LDA除了可以用于降維,還可以用于分類(lèi)

  4、LDA選擇分類(lèi)性能最好的投影方向,而PCA選擇樣本點(diǎn)投影具有最大方差的方向

  在某些數據分布下LDA比PCA降維較優(yōu)(左圖),在某些數據分布下,PCA比LDA降維較優(yōu)。

  


  好了,以上就是本期格物匯的內容,我們下期見(jiàn)。



關(guān)鍵詞: PCA LDA

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>