人工智能之PCA算法
前言:人工智能機器學(xué)習有關(guān)算法內容,人工智能之機器學(xué)習主要有三大類(lèi):1)分類(lèi);2)回歸;3)聚類(lèi)。今天我們重點(diǎn)探討一下PCA算法。
本文引用地址:http://dyxdggzs.com/article/201806/381803.htmPCA(主成分分析)是十大經(jīng)典機器學(xué)習算法之一。PCA是Pearson在1901年提出的,后來(lái)由Hotelling在1933年加以發(fā)展提出的一種多變量的統計方法。

對于維數比較多的數據,首先需要做的事就是在盡量保證數據本質(zhì)的前提下將數據中的維數降低。降維是一種數據集預處理技術(shù),往往在數據應用在其他算法之前使用,它可以去除掉數據的一些冗余信息和噪聲,使數據變得更加簡(jiǎn)單高效,從而實(shí)現提升數據處理速度的目的,節省大量的時(shí)間和成本。降維也成為了應用非常廣泛的數據預處理方法。目前處理降維的技術(shù)有很多種,如SVD奇異值分解,主成分分析(PCA),因子分析(FA),獨立成分分析(ICA)等。今天重點(diǎn)介紹主成分分析(PCA)。

PCA(主成分分析)算法目的是在“信息”損失較小的前提下,將高維的數據轉換到低維,通過(guò)析取主成分顯出的最大的個(gè)別差異,也可以用來(lái)削減回歸分析和聚類(lèi)分析中變量的數目,從而減小計算量。
PCA(主成分分析)通常用于高維數據集的探索與可視化,還可以用于數據壓縮,數據預處理等。
PCA算法概念:
PCA(PrincipalComponent Analysis)主成分分析,也稱(chēng)為卡爾胡寧-勒夫變換(Karhunen-Loeve Transform),是一種用于探索高維數據結構的技術(shù)。
PCA是一種較為常用的降維技術(shù),PCA的思想是將維特征映射到維上,這維是全新的正交特征。這維特征稱(chēng)為主元,是重新構造出來(lái)的維特征。在PCA中,數據從原來(lái)的坐標系轉換到新的坐標系下,新的坐標系的選擇與數據本身是密切相關(guān)的。第一個(gè)新坐標軸選擇的是原始數據中方差最大的方向,第二個(gè)新坐標軸選擇和第一個(gè)坐標軸正交且具有最大方差的方向。該過(guò)程一直重復,重復次數為原始數據中特征的數目。大部分方差都包含在最前面的幾個(gè)新坐標軸中。因此,可以忽略余下的坐標軸,即對數據進(jìn)行降維處理。

評論