基奇PCA的貝葉斯網(wǎng)絡(luò )分糞器研究
1 引言
近幾年來(lái),貝葉斯網(wǎng)絡(luò )已成為數據挖掘和知識發(fā)現中的一個(gè)主要工具,在分類(lèi)、聚類(lèi)、預測和規則推導等方面取得了良好的應用效果。從歷史數據中學(xué)習貝葉斯網(wǎng)絡(luò )可采用基于依賴(lài)分析的方法。
常用的有:用Polytree表示概率網(wǎng)的方法、從完全圖刪除邊的方法等。這種方法需要進(jìn)行指數級的CI測試以發(fā)現依賴(lài)關(guān)系,當結點(diǎn)集較大時(shí),其計算效率低,所以大多數此類(lèi)算法都假設結點(diǎn)有序;但這種假設可能會(huì )影響最后學(xué)習到的網(wǎng)絡(luò )結構的正確性。對于稀疏網(wǎng)絡(luò )和具有較大樣本數據集的系統,這種方法非常有效。
針對基于依賴(lài)分析方法的這一缺點(diǎn),在網(wǎng)絡(luò )結構學(xué)習之前應用主元分析方法將數據降維,減少網(wǎng)絡(luò )結點(diǎn)數目,可提高算法效率、簡(jiǎn)化網(wǎng)絡(luò )結構。
2 數據處理及離散化
現實(shí)數據庫中的數據常存在數據不一致、數據丟失等現象,所以在運用數據學(xué)習網(wǎng)絡(luò )結構前要對數據進(jìn)行預處理。此外,對于連續性數據(如溫度、濕度、長(cháng)度等),直接建立貝葉斯網(wǎng)絡(luò )模型計算復雜度大,從連續數據中很難正確學(xué)習到變量間的關(guān)系。因此首先將數據標準化,再將標準化后的連續變量離散化,用離散化后的數據進(jìn)行貝葉斯網(wǎng)絡(luò )結構的學(xué)習。這里采用模糊離散化方法,對數據集的每個(gè)屬性分別進(jìn)行離散化,每個(gè)屬性都有3個(gè)標度:5標度、7標度、9標度可以選擇。算法步驟如下:
(1)隨機初始化隸屬度矩陣:
3 基于PCA的貝葉斯網(wǎng)絡(luò )結構學(xué)習算法
主元分析PCA(Principal Component Analysis)是通過(guò)可逆線(xiàn)性變換,將數據集轉換為由維數較少的特征成分表示的、包含原數據集所有信息或大部分信息的技術(shù)。通過(guò)PCA技術(shù),可以將復雜數據簡(jiǎn)化,因此它現已被廣泛應用于數據挖掘、模式識別、信號評估、信號探測、圖像編碼等領(lǐng)域。主元分析的原理如下:
評論