<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 特征選擇策略:為檢測乳腺癌生物標志物尋找新出口

特征選擇策略:為檢測乳腺癌生物標志物尋找新出口

發(fā)布人:數據派THU 時(shí)間:2023-08-04 來(lái)源:工程師 發(fā)布文章
microRNA(小分子核糖核酸)是一類(lèi)短小的單鏈非編碼 RNA 轉錄體。這些分子在多種惡性腫瘤中呈現失控性生長(cháng),因此近年來(lái)被諸多研究確定為確診癌癥的可靠的生物標志物 (biomarker)。在多種病理分析中,差異表達分析 (Differential Expression Analysis) 常被視為檢測關(guān)鍵生物標志物的有效方法,而來(lái)自意大利那不勒斯費德里科二世大學(xué)的研究人員,則提出基于機器學(xué)習的特征選擇 (Feature Selection) 策略能夠更為有效的檢測,并建議將其發(fā)現的 20 種 microRNA 作為乳腺癌診斷性生物標志物。


根據國家衛健委發(fā)布的 2022 年版《乳腺癌治療指南》,乳腺癌是女性常見(jiàn)的惡性腫瘤之一,發(fā)病率高居女性惡性腫瘤之首。世界衛生組織統計,2020 年,全球共有 230 萬(wàn)女性被診斷為乳腺癌,隨著(zhù)治療手段的不斷提高,早期乳腺癌五年生存率可達到 90% 甚至更高。因此,乳腺癌早期的準確診斷尤為重要。
microRNA 除了在生物方面具備諸多關(guān)鍵作用,其表達上的改變也與多種癌癥相關(guān),因此可作為可靠的診斷性生物標志物(putative diagnostic biomarker)。來(lái)自意大利那不勒斯費德里科二世大學(xué)的研究人員基于機器學(xué)習,利用特征選擇策略,通過(guò)分析 3 種方法的穩定性和分類(lèi)性能,得到了一組乳腺癌特定診斷生物標志物,同時(shí)還發(fā)現了乳腺癌疾病發(fā)展和演變中的推定關(guān)鍵基因。
目前,這一研究成果發(fā)表在《第 18 屆生物信息學(xué)與生物統計學(xué)計算智能方法會(huì )議論文集(CIBB 2023)》上,標題為《Robust Feature Selection strategy detects a panel of microRNAs as putative diagnostic biomarkers in Breast Cancer》。
圖片該研究成果已發(fā)表在 CIBB 2023 上
論文地址:https://www.researchgate.net/publication/372083934
實(shí)驗概述
在本研究中,科研人員發(fā)現借助 3 種特征選擇方法(增益率、隨機森林及支持向量機遞歸特征消除),可以更加高效地提取診斷分子組合,他們揭示了一個(gè)包含 20 個(gè) microRNA 的組合 (panel),其中 hsa-mir-337、hsa-mir-378c 以及 hsa-mir-483 在目前的乳腺癌診斷生物標志物中,暫未受到醫學(xué)界的廣泛關(guān)注。該方法能夠區分健康及腫瘤樣本,與常用的差異表達法相比,其分類(lèi)性能更佳,更容易識別易被低估甚至忽略的特征。
圖片圖 1: Pipeline 概述
Workflow 包含 4 個(gè)關(guān)鍵步驟:
(i) 在訓練 TCGA 子集上進(jìn)行 Ensemble-FS 計算
(ii) 對 TCGA/GEO 數據集進(jìn)行差異表達分析
(iii) 比較差異表達分析和特征選擇結果的分類(lèi)性能,并評估特征選擇方法的穩定性
(iv) 用計算機模擬驗證所選 signature 的前 20 種 microRNA,對樞紐基因靶點(diǎn)進(jìn)行檢測。
實(shí)驗詳情 
數據集 
實(shí)驗數據來(lái)源包含兩個(gè)渠道:美國 GDC 官網(wǎng)的 TCGA-BRCA 項目以及 Gene Expression Omnibus (GEO) data repository (GSE97811)。
實(shí)驗團隊從 GDC TCGA-BRCA 項目中,合計收集了 1,881 個(gè) microRNA-Seq 數據,并按照 8:2 的比例,分成了訓練集和測試集兩部分。這些數據與 300 個(gè)實(shí)體原發(fā)腫瘤樣本 (T) 以及 101 個(gè)正常相鄰腫瘤 (NAT) 樣本相關(guān),都屬于導管及小葉乳腺組織。應用特征選擇法之前,這些數據都進(jìn)行了方差穩定歸一化處理 (variance stabilizing normalization)。
同時(shí),科研人員從 GEO 數據庫 (GSE97811) 下載了一個(gè)包含 2,565 個(gè) microRNA 的微陣列數據集 (microarray dataset),作為本次實(shí)驗的驗證集。該數據集包括 16 個(gè)正常樣本及 45 個(gè)腫瘤樣本,然后進(jìn)行數據插補 (data imputation)。
由于 GEO 數據(本實(shí)驗中的驗證集)涉及到的是成熟 microRNA 表達,TCGA 數據(本實(shí)驗中的訓練集和測試集)則包含早期形態(tài) (precursor form),為了統一數據,科研人員在 GEO 數據樣本中只選擇了平均計數值高于其對立鏈 (opposite strand) 的可替代成熟 microRNA;同時(shí), microRNA 的名稱(chēng)也已經(jīng)轉換成了相應的早期形態(tài)名稱(chēng)。
通過(guò)這一過(guò)程后,GEO 數據(驗證集)的維度減少至 1,361 個(gè) microRNA,相應的 TCGA RNA-Seq 數據也被收集,共包括 20,404 種基因。
1. 特征選擇法及 Ensemble 程序應用 
科研人員選擇了 3 種特征選擇方法與差異表達分析法進(jìn)行比較,分別是 Gain Ratio(增益率)、Random Forest(隨機森林)和 SVM-RFE(支持向量機遞歸特征消除)。將 3 種方法應用于 microRNA-Seq 表達 TCGA 數據的 500 個(gè)子集上,以識別能區分正常樣本和腫瘤樣本的穩健特征面板 (panel)。觀(guān)察到的結果中,按照 8:2 的比例劃分為訓練集和測試集,然后對數據通過(guò)重采樣 (resampling) 進(jìn)行自助法 (bootstrapping) 處理,使其符合數據擾動(dòng)集成程序 (Data Perturbation Ensemble procedure)。每次計算返回的 500 個(gè)按「importance score」降序排列的 microRNA 向量。
|備注:importance score(重要性得分)表示用算法計算得出的每個(gè) feature(特征)在分類(lèi)中的影響。
importance score 越高,賦予 feature 的 rank 就越低。然后科研人員通過(guò)一個(gè)聚合程序,推導出每種特征選擇方法的共識簽名 (consensus signature),最終每組 microRNA 保留得分前 200 名的 feature。
2.穩定性測試 
用 Kuncheva Index (KI) 和 Percentage of Overlapping Gene/Features (POG) 評估特征選擇方法的一致性,用 Stot 統計法(KI 的成對測量)確定所有方法之間的穩定性。這些統計數據是在 signature 長(cháng)度逐漸增加的過(guò)程中計算得出的,feature 數量從 2 開(kāi)始到 200 結束,每次重新計算增加 2 個(gè) unit。
圖片Stot 統計法公式
3.差異表達分析和 DE-signature 
對 TCGA 數據集(含 microRNA-Seq 及 RNA-Seq)進(jìn)行差異表達分析,從原始計數 (raw count) 開(kāi)始,使用精確檢驗 (Exact Test),然后保留 FDR <= 0.01 及 Log2FC 閾值為 |0.5| 的 DE feature。為了獲得 DE-microRNA 的 signature,將 Log2FC 值轉化為絕對值,并按照 abs (Log2FC)遞減的順序對 microRNA(保留前 200 個(gè) feature)進(jìn)行排序。
GEO 驗證集借助 Limma 進(jìn)行差異分析表達,該數據集獲取 DE-signature 的參數及程序與 TCGA 數據集一致。
4.分類(lèi)性能分析 
為了確定每個(gè) signature 區分健康人及癌癥患者的能力,科研人員在測試子集 (TCGA) 和驗證集 (GEO) 上對 4 個(gè) signature(包括特征選擇 panel 和差異表達 panel)都進(jìn)行了預測性分析。
最后計算出精度平均值 (ACC)、K 統計量 (KK) 以及馬修斯相關(guān)系數 (MCC) 在各個(gè) fold 以及每個(gè) signature 的多個(gè)長(cháng)度上的平均值。
5.SVM-RFE microRNA-signature 靶點(diǎn) (target) 檢測 
為了識別 microRNA 潛在的基因靶點(diǎn),科研人員進(jìn)行了以下操作:
1. 將前 20 個(gè) SVM-RFE microRNA 按照其在腫瘤樣本中的上調 (up-regulated) 或下調 (down-regulated) 進(jìn)行分類(lèi)。
2. 對 RNA-Seq 數據進(jìn)行差異表達分析,檢測差異表達基因 (FDR <= 0.05)。
3. 應用斯皮爾曼相關(guān)性分析,對比 microRNA 表達與差異表達基因,只保留與 down-microRNA 負相關(guān)的 up-gene,以及 up-microRNA 負相關(guān)的 down-gene (rho <= -0.5)。
4. 收集所有經(jīng)過(guò)驗證的 microRNA 基因靶點(diǎn) (gene targets),且只保留那些也顯示出 DE-correlated 的。
6.網(wǎng)絡(luò )中心性及樞紐基因識別
選定失調基因的相關(guān)矩陣 (Spearman),并用其構建一個(gè)圖結構基因網(wǎng)絡(luò ):保留 Kleinberg's hub 中心性得分 > 75,rho > 0.8 或 rho < -0.6 的樞紐基因。對樞紐基因進(jìn)行基因富集分析 (ORA),以便從 REACTOME 數據庫中探索最豐富的 pathway。FDR 調整后 pValue 值閾設定為 0.005。
實(shí)驗結果 

實(shí)驗表明,應用 3 種特征選擇方法后,都返回了 500 個(gè)按 importance score 降序排列的 microRNA signature,匯總后得到 3 個(gè)共識 panel。值得注意的是,排名前 3 的 microRNA(hsa-mir-139、hsa-mir-96 及 hsa-mir-145)在所有 panel 中都出現了,顯示出這些分子在區分腫瘤樣本和健康樣本中的重要性。
|結論 1:SVM-RFE 穩定性最高
從 KI 和 POG 在共識 panel 上的計算來(lái)看,SVM-RFE 法最具穩定性,signature 長(cháng)度達到 20 個(gè) feature 時(shí)最突出。同樣,Stot 指數的結果也顯示出 SVE-RFE 法具有最高穩定性。
圖片圖 2: 3 種特征選擇方法的穩定性指數比較

藍色:Random Forest(隨機森林)粉色:Gain Ratio(增益率)黃色:SVM-RFE(支持向量機遞歸特征消除)
|結論 2: SVM-RFE signature 在分類(lèi)中的表現優(yōu)于差異表達 signature
所有單獨 panel 進(jìn)行分類(lèi)性能分析后,無(wú)論是測試集 (TCGA) 還是驗證集 (GEO),都顯示出用 SVM-RFE 獲得的 signature 的預測能力最高。
圖片圖 3: 前 20 個(gè) microRNA 分類(lèi)性能及維恩圖
A:條形圖顯示了在測試子集和外部驗證 GEO 數據集上計算的平均 statisticACC:精度KK:K 統計量MCC:馬修斯相關(guān)系數
綠色:DE(差異表達分析法,該實(shí)驗中的對照方法)粉色:GR(增益率)藍色:RF(隨機森林)橙色:RFE(SVM-RFE,支持向量機遞歸特征消除)
B:每個(gè) signature 的前 20 個(gè) microRNA 的維恩圖,其中標注了 SVM-RFE panel 前 20 中的一些有趣的 microRNA--hsa-mir-337、hsa-mir-378c 及 hsa-mir-483,這 3 個(gè) micro-RNA 在 3 種特征選擇方法中都出現了,但目前關(guān)于乳腺癌的研究中尚未完全確定其作為診斷依據是否可靠。
|結論 3: 網(wǎng)絡(luò )分析揭示了疾病演變中的潛在關(guān)鍵基因
實(shí)驗表明,CDC25、TPX2 及 KIF18B 在不同類(lèi)型癌癥以及三陰性乳腺癌患者的干細胞中,都顯示高度表達,且 TGFBR2 的下調與癌癥進(jìn)展相關(guān)。
microRNA:乳腺癌早篩的又一理想候選 
傳統的乳腺癌篩查方法仍以 X 光成像及組織活檢為主,無(wú)法對完整的癌癥基因組建立更深入全面的理解。這種方法不光侵入性強、成本高,容易產(chǎn)生副作用,還常給出假陽(yáng)性或假陰性結果,提高乳腺癌的早篩準確度及患者體驗,仍需開(kāi)發(fā)新策略來(lái)應對乳腺癌負擔。
自 1993 年首次發(fā)現以來(lái),micorRNA 不斷深化了人類(lèi)對癌癥的理解,作為可靠的乳腺癌診斷生物標志物,它展現了巨大潛力。
microRNA 屬于長(cháng)度約 19-25 nt 的小型非編碼 RNA,可以調控多種靶點(diǎn)基因 (target gene),參與了多種生物學(xué)和病理學(xué)過(guò)程的調控,包括癌癥的形成和發(fā)展,有望彌補當下 X 光成像及組織活檢作為臨床上乳腺癌篩查主流診斷方法的局限性。
然而,目前尚未完全開(kāi)發(fā)出 microRNA 的成熟臨床應用,對 microRNA 使用過(guò)程中的安全評估體系也還未建立,要想讓 microRNA 成為癌癥的主流診斷依據,恐怕仍需時(shí)日。
參考文章:[1]https://www.who.int/zh/news-room/fact-sheets/detail/breast-cancer[2]https://guide.medlive.cn/guideline/25596[3]https://www.abcam.cn/kits/micrornas-as-biomarkers-in-cancer-1[4]https://caivd-org.cn/webfile/file/20220508/20220508153691029102.pdf[5]https://www.sohu.com/a/318088245_100120288


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>