基于A(yíng)lpha-NMF的AD樣本分類(lèi)及特異性基因選擇方法
1.2 Alpha-NMF算法
Alpha-NMF算法是NMF算法的一種改進(jìn),它是針對信號處理所提出的一種新的算法。
Alpha-NMF算法的數學(xué)模型為:

2 非負矩陣分解在基因表達譜數據中的應用
2.1 數據預處理
文中所選的實(shí)驗數據為基因表達綜合數據庫(GEO)中23組大腦海馬區域(HIP)和23組內嗅區皮質(zhì)(EC)的AD樣本,54 675個(gè)基因表達數據;其中海馬區域的基因數據集由13個(gè)control AD樣本和10個(gè)affected AD樣本組成,內鼻皮質(zhì)區域的基因數據集由13個(gè)control AD樣本和10個(gè)affectedAD樣本組成。由于基因表達譜數據的復雜性,在進(jìn)行聚類(lèi)分析前必須先進(jìn)行預處理和數據轉換等過(guò)程。本文先采用小波變換(wave let transform,WT)方法對數據進(jìn)行降噪,然后通過(guò)微陣列顯著(zhù)性分析(significance analysis of microarrays,SAM)工具箱篩選出顯著(zhù)變化的上下調基因。
2.2 Alpha-NMF算法應用于基因表達譜數據
Alpha-NMF算法被提出后,至今還設被應用于基因表達數據中,通過(guò)大量的實(shí)驗,證明了Alpha-NMF算法能夠有效的應用到該領(lǐng)域中,相比傳統NMF算法,其算法穩定性和分類(lèi)準確率明顯較高。
基因表達譜數據的Alpha-NMF混合模型如圖1所示。Y表示mxn維基因表達譜數據,每一行表示一個(gè)樣本集,每一列表示一個(gè)基因在不同條件下的表達水平。yij表示第j個(gè)基因在條件i下的表達水平。通常nm。本文引用地址:http://dyxdggzs.com/article/193834.htm
任一樣本yi可以表示為:
也就是說(shuō)每一個(gè)樣本可以近似看做是非負矩陣X的行向量的非負線(xiàn)性組合,組合系數是矩陣A對應行向量的分量。把分解后的矩陣X的每一行稱(chēng)為一個(gè)集合基因。矩陣A的第k列為X的第k個(gè)集合基因的系數,若矩陣X能表征原始數據的局部特征,則系數矩陣A與樣本類(lèi)別緊密相關(guān),即類(lèi)別c1對于特征k的貢獻大,而c2對于特征k的貢獻小。對于每一個(gè)集合基因(圖2為HIP數據經(jīng)Alpha-NMF算法,α=0.5時(shí)分解后相關(guān)系數為0.97集合基因的柱狀圖),若元素的值相對較大,說(shuō)明其對應的基因j與AD緊密相關(guān)。
3 實(shí)驗結果與分析
首先采用WT-SAM方法分別對HIP和EC數據進(jìn)行預處理,篩選后的基因數分別為13 587個(gè)、6 567個(gè),再對數據進(jìn)行菲負化處理,然后通過(guò)Alphs-NMF算法進(jìn)行分解,利用分解后的A矩陣進(jìn)行聚類(lèi),本文采用k均值聚類(lèi)方法對A的行向量進(jìn)行聚類(lèi),得到一聚類(lèi)結果。對于矩陣X,設定一閾值,篩選出集合基因中大于該閾值的信息基因。
評論