<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 醫療電子 > 設計應用 > 數據挖掘技術(shù)在中醫證候學(xué)中的應用

數據挖掘技術(shù)在中醫證候學(xué)中的應用

作者:周旭 趙耀 時(shí)間:2018-03-29 來(lái)源:電子產(chǎn)品世界 收藏
編者按:中醫證候的研究工作仍然存在一定的困難,證候的規范化和證候診斷的量化是中醫發(fā)展必須解決的問(wèn)題。數據挖掘技術(shù)是一種高效的數據分析手段,其在中醫領(lǐng)域的研究也逐步走向熱門(mén)。使用數據挖掘技術(shù)中的關(guān)聯(lián)規則和分類(lèi)算法對早中期慢性腎衰竭的證候和癥狀進(jìn)行分析:首先對采集的癥狀和證候信息進(jìn)行數字特征化處理;然后對證候之間的關(guān)聯(lián)關(guān)系進(jìn)行研究,獲得了高支持度的四組證候組合;最后分類(lèi)和預測癥狀和證候之間的辯證關(guān)系,得到了癥狀的規則集,并計算出其中的重要癥狀。實(shí)驗證明,分類(lèi)結果對早中期慢性腎衰竭的癥狀與證候的辯證論治具有重要的臨床指

作者 / 周旭1 趙耀2  1. 河北醫科大學(xué) 基礎醫學(xué)院(河北 石家莊 050017) 2. 中國人民銀行石家莊中心支行(河北 石家莊 050000)

本文引用地址:http://dyxdggzs.com/article/201803/377635.htm

*基金項目:河北省中醫藥管理局科研計劃項目(編號:2014012)。

周旭(1983-),女,碩士,講師,研究方向:。

摘要:中醫的研究工作仍然存在一定的困難,的規范化和診斷的量化是中醫發(fā)展必須解決的問(wèn)題。技術(shù)是一種高效的數據分析手段,其在中醫領(lǐng)域的研究也逐步走向熱門(mén)。使用技術(shù)中的和分類(lèi)算法對早中期慢性腎衰竭的證候和癥狀進(jìn)行分析:首先對采集的癥狀和證候信息進(jìn)行數字特征化處理;然后對證候之間的關(guān)聯(lián)關(guān)系進(jìn)行研究,獲得了高支持度的四組證候組合;最后分類(lèi)和預測癥狀和證候之間的辯證關(guān)系,得到了癥狀的規則集,并計算出其中的重要癥狀。實(shí)驗證明,分類(lèi)結果對早中期慢性腎衰竭的癥狀與證候的辯證論治具有重要的臨床指導意義。

0 引言

  證候是醫師通過(guò)望、聞、問(wèn)、切來(lái)收集病人四診信息資料,運用相關(guān)中醫理論,從整體上對疾病進(jìn)行分析,歸納、推理、判斷疾病的某一時(shí)點(diǎn)病理狀態(tài)綜合反映的認識[1]。由于證候是一種非線(xiàn)性的復雜的臨床表現,只有采用與證候復雜性相適應的科學(xué)理論及思維方法對其進(jìn)行研究,才能揭示其科學(xué)內涵[2]。運用數據挖掘技術(shù)對中醫證候的構成特點(diǎn)及其規律進(jìn)行分析研究,將對中醫證候的辯證分析起到巨大的促進(jìn)作用。

1 數據挖掘技術(shù)

1.1 數據挖掘定義

  數據挖掘是從大量數據中挖掘有趣模式和知識的過(guò)程。從廣義上說(shuō),數據挖掘是對數據庫知識發(fā)現(Knowledge Discovery in Databases,KDD)的一個(gè)過(guò)程[3]。數據挖掘作為一種通用技術(shù),可以應用于任何類(lèi)型的數據,包括數據庫、數據倉庫、web信息以及其他信息存儲數據庫和動(dòng)態(tài)的流入系統的數據等。

1.2 常用的數據挖掘算法

1.2.1

  關(guān)聯(lián)分析用于發(fā)現隱藏在數據集中的有意義的聯(lián)系,所發(fā)現的特征變量之間的聯(lián)系可以用或頻繁項集的形式表示。關(guān)聯(lián)規則挖掘作為一種重要的數據挖掘方法,已經(jīng)廣泛應用于醫學(xué)、金融、互聯(lián)網(wǎng)等多個(gè)領(lǐng)域[4]。Agrawal等人[5]提出了最早的基于頻繁項集的經(jīng)典關(guān)聯(lián)規則Apriori算法。發(fā)現關(guān)聯(lián)規則需要經(jīng)歷兩個(gè)步驟:①通過(guò)一種逐層搜索的迭代算法,檢索出支持度不低于某一預設閾值(支持度)的頻繁項集;②利用檢索出的頻繁項集構建出強關(guān)聯(lián)規則(同時(shí)滿(mǎn)足最小支持度和最小置信度)。

1.2.2 分類(lèi)

  分類(lèi)任務(wù)就是確定對象屬于哪個(gè)預定義的目標類(lèi)。分類(lèi)問(wèn)題是一個(gè)普遍存在的問(wèn)題,已經(jīng)有大量應用,包括目標營(yíng)銷(xiāo)、性能預測、制造和醫療診斷等[6]。數據挖掘技術(shù)中比較成熟且應用廣泛的分類(lèi)算法有貝葉斯網(wǎng)絡(luò )、決策樹(shù)以及人工神經(jīng)網(wǎng)絡(luò )等。

  貝葉斯方法最早起源于英國數學(xué)家托馬斯.貝葉斯在1763年所證明的一個(gè)關(guān)于貝葉斯定理的一個(gè)特例[7]。經(jīng)過(guò)多位統計學(xué)家的共同努力,貝葉斯統計在20世紀50年代之后逐步建立起來(lái),成為統計學(xué)中一個(gè)重要的組成部分[8-10]。從1763年到現在已有250多年的歷史,這期間,貝葉斯統計方法有了長(cháng)足的進(jìn)步[11]。

  決策樹(shù)模型源于人工智能領(lǐng)域的機器學(xué)習技術(shù),用于實(shí)現數據的分類(lèi)和預測。經(jīng)過(guò)多年發(fā)展,其核心算法已經(jīng)逐漸成熟,被各類(lèi)智能決策系統所采納[12]。其中的C5.0算法作為C4.5算法的商業(yè)版本,通過(guò)對生成規則及算法精確度方面予以改進(jìn),獲得了更準確的生成規則、更快的運行速度以及更低的誤差率[13]。決策樹(shù)模型在中醫證候學(xué)和診斷學(xué)[14-15]等方面的應用研究已經(jīng)較為成熟。

  人工神經(jīng)網(wǎng)絡(luò )是20世紀80年代發(fā)展起來(lái)的一門(mén)由計算機、信息、工程、醫學(xué)、生物學(xué)、數學(xué)、物理學(xué)等多學(xué)科交叉的邊緣學(xué)科[16]。它包含輸入層、輸出層以及1個(gè)或幾個(gè)隱含層,各層中處理數據的節點(diǎn)稱(chēng)為神經(jīng)元,信息處理是由神經(jīng)元之間的相互作用來(lái)實(shí)現的。腦與神經(jīng)科學(xué)、人工智能、計算機科學(xué)的深度融合與相互借鑒已成為近年來(lái)科學(xué)研究領(lǐng)域重要的國際趨勢[17]。

2 數據集的建立

2.1 數據采集

  本文實(shí)驗數據采自早中期慢性腎衰竭患者的病案。病案內容包括患者姓名、性別、年齡、原發(fā)病、癥狀、體征、腎功能指標、中醫證候、中藥處方等。本文摘取其中的癥狀和證候信息進(jìn)行數據挖掘的分析研究。共采集并錄入病案信息223條,其中記錄癥狀共76種,論治證候共16種。

2.2 數據特征化

  針對要采用的數據挖掘算法,本文將每條數據記錄用布爾值的形式表示,如表1所示。

  其中布爾值0和1表示病人是否具有這種癥狀或證候,0表示病人沒(méi)有此癥狀或證候,1表示病人具有此癥狀或證候。

  按照上述方法建成癥狀和證候數據庫,其中包括:包含所有癥狀的數據集,由專(zhuān)業(yè)教授診斷判別的證候數據集,統計癥狀和證候頻次的癥狀和證候計數數據集以及主要癥狀數據集和主要證候組合數據集。

3 關(guān)聯(lián)分析

  本研究共納入癥狀16種,出現頻數在病案總條數10%以上的的證候有11種,分別是血瘀,脾腎氣虛,濕熱內蘊,脾腎陽(yáng)虛,濕濁阻滯,風(fēng)濕,胃氣上逆,肝陽(yáng)上亢,肝腎陰虛,陰陽(yáng)兩虛,氣滯胃腸。

  本文采用Apriori算法建模,對這11種主要的證候進(jìn)行關(guān)聯(lián)分析。結果見(jiàn)表2(由于篇幅限制,只摘取支持度30%以上的規則顯示)。

  支持度是指所有前項證候同時(shí)出現的概率,置信度是在前項證候出現的前提下,后項證候同時(shí)出現的概率。結果顯示,血瘀單獨出現的幾率最高,達到98.21%;血瘀與脾腎氣虛同時(shí)出現的幾率高于60%;在此基礎上,再同時(shí)伴有濕濁阻滯或濕熱內蘊者均在30%左右,而兩者之和則高于60%,充分表明瘀阻、濕壅與脾腎氣虛為慢性腎衰竭虛實(shí)夾雜、本虛標實(shí)的主要體現。

  使用SPSS Clementine12.0中的網(wǎng)絡(luò )圖形建模,該模型可以直觀(guān)的體現11種高頻證候兩兩之間關(guān)聯(lián)關(guān)系,連接兩種證候之間的直線(xiàn)越粗,表明兩種證候同時(shí)出現在一個(gè)病案中的頻率越高。如圖1所示。

  結合網(wǎng)絡(luò )關(guān)系圖及鏈接數據分析,強鏈接關(guān)系主要集中于血瘀、脾腎氣虛、濕熱內蘊、濕濁阻滯和脾腎陽(yáng)虛之間。其中,位于前三位的鏈接關(guān)系分別為血瘀與脾腎氣虛、濕熱內蘊、脾腎陽(yáng)虛之間,連接條數達389條,占所有連接條數的50%以上,表明血瘀為早中期慢性腎衰最重要的標實(shí)證候;脾腎氣虛除與血瘀之外,與脾腎陽(yáng)虛、濕熱內蘊、濕濁阻滯之間的關(guān)系均較密切,故為本病最主要的本虛證候。

4 分類(lèi)與預測

4.1 決策樹(shù)模型的建立

  本文使用C5.0算法構建決策樹(shù)模型。統計數據庫中患者癥狀出現的頻數,從76個(gè)癥狀中篩選出出現次數10次以上的主要癥狀如畏寒、小便黃、腰酸痛、眼瞼、下肢水腫、舌紅、舌暗紅、寒熱不調、寐差、夜尿頻、大便干、雙目干澀、視物模糊、納差、大便粘膩、胃脘不適、口干咽干、關(guān)節疼痛、腿麻木脹痛、惡心、干嘔、四末厥冷、咽癢咽痛咳嗽有痰、耳鳴、腹脹、口苦、舌淡、后背沉重、小便量少、小便清長(cháng)、咽部異物感、潮熱、乳房脹痛、齒痕舌、舌淡暗、汗出、舌淡紅、皮膚瘙癢健忘、尿頻、大便溏、口淡等39個(gè)。使用這些主要癥狀參與建模,按其出現次數降序排列。

  據前述關(guān)聯(lián)規則的結果,出現頻數較高的證候組合(支持度30%以上)共四個(gè),包括:①血瘀、脾腎氣虛;②血瘀、脾腎氣虛、脾腎陽(yáng)虛;③血瘀、脾腎氣虛、濕熱內蘊;④血瘀、脾腎氣虛、濕濁阻滯。癥狀是疾病所反映的現象,它是判斷病種,辨別證候的主要依據。分別對這四種高頻證候組合及其對應的癥狀進(jìn)行決策樹(shù)建模,每個(gè)組合分別獲得若干條癥狀的分類(lèi)規則。組合1獲得的規則集如表3。

  我們選取分類(lèi)結果為真的規則集,這些規則集預測的結果就是證候組合為真。組合1(血瘀和脾腎氣虛)共獲得了8條判斷規則,前7條規則都可作為組合1的有效分類(lèi)規則,而第8條規則中,分類(lèi)特征的屬性都為0,在實(shí)際臨床應用中不具備實(shí)際作用,將其忽略。組合2獲得3條有效分類(lèi)規則;組合3獲得4條有效分類(lèi)規則;組合4獲得3條有效分類(lèi)規則。這些有效規則都可以獨立地的預測其對應的證候組合,構成規則的癥狀數量較少,可以簡(jiǎn)化診斷過(guò)程。

4.2 計算變量重要性

  不同證候組合所對應的癥狀規則不盡相同,基于對癥狀的信息熵的分析計算,提取每個(gè)組合其所對應的重要癥狀,結果如表4,表中癥狀出現的順序按照重要性降序排列。

  表中的癥狀是去除冗余癥狀之后的結果,剔除了不重要的癥狀,保留的癥狀是對證候組合的預測有重要貢獻的癥狀。重要度越高,表明此癥狀對目標證候的預測影響程度越高;反之重要度越低,表明此癥狀對目標證候的預測影響程度越小。

  不同證候組合所對應的預測癥狀不盡相同,通過(guò)分析發(fā)現,四種最常見(jiàn)證候組合均可出現畏寒的臨床表現,而每一種組合用于鑒別的重要癥狀則主要集中側重后背沉重、寒熱不調、尿頻、舌淡等臨床表現。

4.3 不同分類(lèi)模型預測結果對比

  本文對支持率較高的四種證候組合,采用三種常見(jiàn)的數據挖掘分類(lèi)預測算法:C5.0決策樹(shù)、貝葉斯網(wǎng)絡(luò )以及人工神經(jīng)網(wǎng)絡(luò )對癥狀進(jìn)行分類(lèi)預測,對比分類(lèi)準確率如圖2。

  三種分類(lèi)算法中,貝葉斯網(wǎng)絡(luò )對本數據集的分類(lèi)準確率最高,在84.75%到96.41%之間。神經(jīng)網(wǎng)絡(luò )的分類(lèi)準確率較低,在73.99到91.93%之間,而三種分類(lèi)算法的平均準確率都達到了82%以上,準確率較為理想。

5 結論

  本文首先構建了一個(gè)基于A(yíng)priori算法的模型,進(jìn)行證候的關(guān)聯(lián)規則挖掘,發(fā)現了在早中期慢性腎病患者中的四組高支持度證候組合,并且與中醫理論較為吻合,同時(shí)也為下一步的分類(lèi)與預測工作提供數據支持。

  其次針對較高支持度的四組證候組合以及患者出現的高頻癥狀采用C5.0算法進(jìn)行決策樹(shù)建模,以期得一些有意義的癥狀規則。結果顯示,這些規則集可以預測患者是否屬于某種證候組合,本文選取預測類(lèi)別為“真”的規則集(可預測患者確實(shí)屬于某種證候組合)作為臨床診斷的參考。預測類(lèi)別為“假”的規則集(預測患者不屬于某種證候組合)不具備臨床診斷意義,所以不予討論。同時(shí)計算出參與預測的癥狀的重要性,判別哪些癥狀對證候組合的預測結果具有重要意義,說(shuō)明這些癥狀在臨床診斷中值得關(guān)注。

  最后分別使用使用貝葉斯網(wǎng)絡(luò ),C5.0和神經(jīng)網(wǎng)絡(luò )三種分類(lèi)算法對癥狀進(jìn)行建模,分析不同的分類(lèi)算法分類(lèi)預測的準確率。貝葉斯網(wǎng)絡(luò )對四組證候組合的平均分類(lèi)準確率最高為89.80%;C5.0和其非常接近,也達到88.34%,說(shuō)明這兩種分類(lèi)算法對本數據集中證候組合的分類(lèi)預測都比較可靠。神經(jīng)網(wǎng)絡(luò )的的準確率為82.85%,相較前兩種算法較低,但由于中醫數據集的樣本數量有限且主觀(guān)性較強,獲得的準確率達到百分之八十以上我們就可認為是有效可行的分類(lèi)預測算法。所以認為這三種算法對于癥狀和證候的分類(lèi)預測都是可行的,且以貝葉斯網(wǎng)絡(luò )和C5.0算法為更優(yōu),預測結果都可以作為臨床診斷的參考依據。

  本文采用的算法都是數據挖掘中的經(jīng)典算法,并沒(méi)有對算法進(jìn)行優(yōu)化工作,對證候組合的提取以及癥狀的分類(lèi)預測還需要大量的實(shí)驗數據進(jìn)行進(jìn)一步驗證,算法的準確率還需要進(jìn)一步提高,這些都是需要進(jìn)一步改進(jìn)的地方。

  綜上所述,利用多種數據挖掘算法對早中期慢性腎病的癥狀與證候進(jìn)行逐漸深入的知識挖掘,是可行有效的,獲得的高支持度證候組合以及癥狀的分類(lèi)預測規則對于臨床診斷也是有一定指導意義的。如何在算法上有更多突破,同時(shí)將更多新的算法引入到中醫研究中,以期提高挖掘的效率和準確性,是我們下一步的研究方向。

  參考文獻:

  [1]田金洲,王永炎,時(shí)晶,等.證候的概念及其屬性[J].北京中醫藥大學(xué)學(xué)報,2005,28(5):6-8.

  [2]孫安會(huì ),袁肇凱,夏世靖.中醫證候系統生物學(xué)研究的現狀和展望.[J]中華中醫藥雜志,2016,31(1):200-204.

  [3]JiaWeiHan,MichelineKamber, Jian Pei.數據挖掘概念與技術(shù)[M].范明,孟曉峰,譯.北京:機械工業(yè)出版社.2012:243.

  [4]Giannella C,Han Jiawei,Pei Jian,et al. Mining frequent patterns in data streams at multiple time granularities[J].Next GenerationData Mining,2006,35(1):61-84.

  [5]AGRWAL R,SRIKAN R.Fast algorithms for mining association rules in large databases[C]//Proceedings of the 20th International Conference on Very Large Data Bases. San Francisco: MorganKaufmann Publishers,1994:487-499.

  [6]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.數據挖掘導論 [M]. 范明,范宏建,譯.北京:人民郵電出版社。2011:92

  [7]Bayes T. An essay towards solving a problem in the doctrine of chances [J]. London: Philosophical Transactions Royal Societv, 1763,53:370-418

  [8]茆詩(shī)松.貝葉斯統計[M].北京:中國統計出版社,1999.

  [9]P M Lee.Bayesian statistics: An Introduction[M]. New York: John Wiley & Sons, 2012.

  [10]A Gelman,J Carlin,H Stern,et al.Bayesian Data Analysis[M].Boca Raton:CRC Press,2013.

  [11]Efrou B.Bayes’ theorem in the 21st century[J].Science, 2013, 340(6137):1177-1178.

  [12]N Robert,E John,M Gary.Handbook of statistical analysis and datamining applications[M].USA:Elservier,2009.

  [13]熊平.數據挖掘算法與Clementine 實(shí)踐[M].北京:清華大學(xué)出版社,2011,26:116-118.

  [14]張琪,周琳,陳亮,等.決策樹(shù)模型用于結核病治療方案的分類(lèi)和預判[J].中華疾病控制,2015,19(5):510-513.

  [15]陳瀟雨,馬利莊,胡義揚.基于決策樹(shù)方法的慢性乙型肝炎中醫證候分類(lèi)[J].上海:中醫藥大學(xué)學(xué)報,2013,27(1):40-43.

  [16]B D Ripley.Pattern Recognition and Neural Networks. Cambridge: Cambridge University Press. 1996.

  [17]曾毅,劉成林,譚鐵牛.類(lèi)腦智能研究的回顧與展望[J].計算機學(xué)報,2016,39(1):212-222.

  本文來(lái)源于《電子產(chǎn)品世界》2018年第4期第56頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處。



評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>