基奇PCA的貝葉斯網(wǎng)絡(luò )分糞器研究
對所用的貝葉斯網(wǎng)絡(luò )學(xué)習算法進(jìn)行CI測試,最壞情況下的時(shí)間復雜度為O(N4)。由表2可知,采用PCA降維后,算法所用時(shí)間約占原構造算法時(shí)間的34.58%,貝葉斯網(wǎng)絡(luò )結構的學(xué)習效率有所提高。
經(jīng)PCA降維,IRIS數據集的屬性由4個(gè)減少為3個(gè);ZooData的屬性由18個(gè)減少到12個(gè);Glass Identification Data的屬性由11個(gè)減少為8個(gè)。屬性數量的減少使得網(wǎng)絡(luò )結構更為簡(jiǎn)單,并且由表2可以看出,經(jīng)PCA降維后進(jìn)行分類(lèi)的結果準確率不低于不經(jīng)過(guò)降維直接由數據集學(xué)習得到的貝葉斯網(wǎng)絡(luò )分類(lèi)結果的準確率。
經(jīng)PCA降維后的網(wǎng)絡(luò )結構如圖1~圖3所示。
用圖1中的結點(diǎn)V4、圖2中的結點(diǎn)F13及圖3中的結點(diǎn)F8是類(lèi)別標簽結點(diǎn),其余結點(diǎn)為原數據結點(diǎn)的線(xiàn)性變換,無(wú)實(shí)際意義。實(shí)驗2用經(jīng)過(guò)PCA降維后數據構造的貝葉斯網(wǎng)絡(luò )器(BN)與樸素貝葉斯(NB)分類(lèi)器、TAN分類(lèi)器分類(lèi)對以上3組數據進(jìn)行分類(lèi)。分類(lèi)準確率的比較如表3所示。
由實(shí)驗1可知,使用PCA降維后構造的貝葉斯網(wǎng)絡(luò )與未使用降維數據學(xué)習得到的網(wǎng)絡(luò )分類(lèi)結果正確率相差不大,而這樣構造的網(wǎng)絡(luò )分類(lèi)結果比其他分類(lèi)器正確率高很多,同時(shí)使用降維后數據構造的網(wǎng)絡(luò )還具有結點(diǎn)少、結構簡(jiǎn)單、學(xué)習效率高等優(yōu)點(diǎn)。
5 結束語(yǔ)
基于貝葉斯網(wǎng)絡(luò )結構學(xué)習中依賴(lài)分析方法需進(jìn)行指數級的CI測試因而存在結點(diǎn)集較大時(shí)計算效率低的缺點(diǎn),提出了將數據集先經(jīng)過(guò)PCA主元分析的方法降維。減少結點(diǎn)數,再用降維后的數據進(jìn)行貝葉斯網(wǎng)絡(luò )結構學(xué)習的方法,提高了網(wǎng)絡(luò )結構學(xué)習的效率,并通過(guò)提高學(xué)習到的網(wǎng)絡(luò )結構的正確性保證了較好的分類(lèi)結果。此外。構建的網(wǎng)絡(luò )還具有結點(diǎn)少、結構簡(jiǎn)單的特點(diǎn),減少了網(wǎng)絡(luò )的復雜性。
評論