基于A(yíng)lpha-NMF的AD樣本分類(lèi)及特異性基因選擇方法
由于NMF算法受初值和維數r的影響,因此對每組實(shí)驗分別取r=2,3,4,5時(shí)運行NMF算法20次。為了衡量由于r值選取不同導致的聚類(lèi)的穩定性問(wèn)題,定義了一個(gè)共表型相關(guān)系數(圖3分類(lèi)穩定性比較),共表型相關(guān)系數越接近于1,分類(lèi)越穩定。本文引用地址:http://dyxdggzs.com/article/193834.htm
觀(guān)察圖3和圖4的結果,通過(guò)比較可以發(fā)現,隨著(zhù)r的增加,其相關(guān)系數和分類(lèi)正確率普遍降低,當r=2時(shí),其分類(lèi)穩定性和識別正確率明顯高于r=3,4,5時(shí)的情況。此時(shí),Alpha-NMF算法相比標準NMF算法具有較高的分類(lèi)準確性和穩定性。尤其當α=0.5時(shí),效果最佳。因此,選擇Alpha-NMF算法α=0.5,r=2處理后的集合基因,如圖2所示,選擇某一閾值(此處閾值為50),可以分別提煉出268個(gè)(HIP)、172(EC)個(gè)探針表達變化具有顯著(zhù)差異。
4 討論
4.1 特異性基因及其功能分類(lèi)
將上節提煉出的探針號與AD基因組進(jìn)行比對,共確定有320個(gè)基因為特異性基因。這些基因主要于細胞信號傳導、物質(zhì)代謝、物質(zhì)傳輸等生物過(guò)程有關(guān)。
MiMI(Michigan Molecular Interactions)是國家衛生研究所疾病預防控制綜合生物情報中心中的一部分。它可以提供蛋白質(zhì)間的相互作用,并且利用這些數據進(jìn)行融合,集合成一個(gè)復雜的網(wǎng)絡(luò );還能檢索大量基因的生物功能。
使用MiMI對上上述特異性基因進(jìn)行功能分類(lèi),其中有88基爵在GO(Gene Ontology)上沒(méi)有注釋?zhuān)虼藳](méi)有對其分類(lèi),僅對其余的232個(gè)基因進(jìn)行分類(lèi),根據分類(lèi)結果,主要分為以下幾類(lèi):1)物質(zhì)代謝過(guò)程;包括蛋白質(zhì)代謝、細胞氮化合物代謝、核苷酸代謝;2)細胞周期過(guò)程,包括細胞形態(tài)發(fā)生和發(fā)展、細胞自動(dòng)調節機能、生殖細胞形成;3)定位過(guò)程,包括蛋白質(zhì)定位、細胞定位、大分子定位;4)細胞成分組織,包括細胞內大分子聚集、細胞膜組織以及細胞內各器官組織;5)生物合成過(guò)程,包括核苷酸合成、小分子合成;6)基因表達、轉錄、翻譯;7)神經(jīng)系統調節,包括神經(jīng)元的形成、神經(jīng)突觸傳導、神經(jīng)元變異、神經(jīng)傳導素生成及傳輸;8)細胞凋亡;9)物質(zhì)運輸,包括ATP水解耦合質(zhì)子運輸、陽(yáng)離子運輸、胞內蛋白質(zhì)運輸、離子跨膜運輸。上述基因功能分類(lèi)如表1所示。
評論