數據挖掘技術(shù)在中醫處方經(jīng)驗研究中的應用
摘要:傳統的中醫藥科學(xué)在長(cháng)期的醫療實(shí)踐中積累了海量的處方數據,數據挖掘是目前最有效的數據分析手段之一,利用數據挖掘技術(shù)從這些海量數據中發(fā)現蘊含其中的中醫藥知識,是一項極有價(jià)值的研究工作。本文主要采用數據挖掘中的Apriori關(guān)聯(lián)規則算法,對中醫處方數據進(jìn)行挖掘和總結:首先對采集的中醫藥數據進(jìn)行數字特征化處理;然后對中醫處方中藥物的頻繁項集和藥物之間的關(guān)聯(lián)關(guān)系進(jìn)行研究,并獲得了普通處方分析較難獲得的用藥規律及經(jīng)驗信息。研究成果對中醫臨床工作具有重要的指導意義。
本文引用地址:http://dyxdggzs.com/article/201603/287496.htm信息技術(shù)正在經(jīng)歷著(zhù)一次新的變革,互聯(lián)網(wǎng)、大數據等各種技術(shù)正在潛移默化的改變著(zhù)人們的生活,數字化和數據化更是深深地影響著(zhù)各行各業(yè)的每一個(gè)細節。很多信息早已開(kāi)始儲存于各種類(lèi)型的數據庫或者其他載體里,人們也已經(jīng)開(kāi)始從眾多數據中,找出有益的規律。人們的關(guān)注點(diǎn)已經(jīng)由數據間的因果關(guān)系漸漸轉變?yōu)榭梢詭椭覀儾东@現在和預測未來(lái)的相關(guān)關(guān)系[1],即挖掘事物之間的關(guān)聯(lián)性。中醫在長(cháng)期的醫療實(shí)踐中積累了海量的處方數據,如何有效的分析這些數據并發(fā)現規律以指導臨床應用,成為中醫藥現代化研究中亟待解決的問(wèn)題。數據挖掘作為一種有效的數據分析手段,已經(jīng)在中醫藥領(lǐng)域中得到廣泛應用。
1 數據挖掘技術(shù)
1.1 數據挖掘概述
數據挖掘是從大量數據中挖掘有趣模式和知識的過(guò)程。從廣義上說(shuō),數據挖掘是對數據庫知識發(fā)現(Knowledge Discovery in Databases,KDD)的一個(gè)過(guò)程。作為一種通用技術(shù),數據挖掘可以用于任何類(lèi)型的數據,只要數據對目標應用是有意義的,數據源可以包括數據庫、數據倉庫、web、其他信息存儲庫或動(dòng)態(tài)的流入系統的數據[2]。
1.2 中醫藥數據挖掘的意義
中醫藥領(lǐng)域的處方中通常包含大量的藥物及其劑量組成,伴隨著(zhù)醫院信息化建設的大力推進(jìn),這些藥方多以數據庫形式被保存,運用數據挖掘技術(shù)對中藥數據進(jìn)行科學(xué)分析,從而發(fā)現其中的配伍特點(diǎn)和規律成為很有現實(shí)意義的一項工作。
中醫藥數據挖掘的目的是通過(guò)對中醫處方中的中藥數據建立合適的模型,從而尋找藥物之間的頻繁模式和關(guān)聯(lián)規則,可以實(shí)現中醫用藥經(jīng)驗的有效總結和傳承。
1.3 關(guān)聯(lián)規則算法
數據挖掘有很多模式,常見(jiàn)有關(guān)聯(lián)規則[3]、聚類(lèi)算法[4]、分類(lèi)算法[5]等。關(guān)聯(lián)規則挖掘最初僅限于事務(wù)數據庫的布爾型關(guān)聯(lián)規則,近年來(lái)廣泛應用于關(guān)系數據庫[6]。關(guān)聯(lián)規則反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性。如果兩個(gè)或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系,那么其中一個(gè)事物就能夠通過(guò)其他事物預測到。
關(guān)聯(lián)規則就是支持度和信任度分別滿(mǎn)足用戶(hù)給定閾值的規則。Apriori[7]是關(guān)聯(lián)規則模型中的經(jīng)典算法。本文主要使用基于頻繁項集的Apriori算法進(jìn)行數據建模,用以發(fā)現中藥配伍中的規律性。發(fā)現關(guān)聯(lián)規則需要經(jīng)歷如下兩個(gè)步驟:
步驟一:通過(guò)迭代,檢索出事務(wù)數據庫中的所有頻繁項集,即支持度不低于用戶(hù)設定的閾值的項集;
步驟二:利用頻繁項集構造出滿(mǎn)足用戶(hù)最小信任度的規則。
2 數據特征化和預處理
2.1 實(shí)驗數據集
本文實(shí)驗數據來(lái)自河北中醫學(xué)院附屬醫院腎內科陳志強教授于2014年5月至2015年7月診治的早中期慢性腎衰竭患者的病案。采集的病案內容包括患者姓名、性別、年齡、原發(fā)病、癥狀、體征、腎功能指標、中醫證候、中藥處方等。摘取其中的中藥信息,按照《中藥大辭典》[8]統一藥物名稱(chēng)。
2.2 數據特征化
統計數據集的全部223條中醫處方,共出現中藥194味,根據專(zhuān)業(yè)經(jīng)驗,我們選取頻數在10%以上的中藥(視為高頻藥物)進(jìn)行數據挖掘。由于中藥處方中的中藥名稱(chēng)以中文形式表示,因此需要將其進(jìn)行易于數據挖掘算法識別的數據特征化處理,方法如下:
(一) 藥物表的特征化方法
根據醫務(wù)工作者的經(jīng)驗,將治療該病癥的常見(jiàn)中藥分為活血化瘀通經(jīng)類(lèi)、清熱祛濕泄濁類(lèi)、行氣燥濕化痰類(lèi)、益氣健脾溫陽(yáng)類(lèi)、補益脾腎之陽(yáng)類(lèi)、滋養肝腎之陰類(lèi)等六大類(lèi)。將高頻藥物分別歸于這六大類(lèi)中,針對每大類(lèi)建立相應的數據表。每條數據采用布爾常量的表示形式如圖1所示。
其中,第一項表示病人編號,每一條記錄表示一位病人的用藥信息,編號之后的每一位布爾數據表示某味中藥是否在該處方中出現,1表示出現,0表示未出現。
(二) 類(lèi)別表的特征化方法
為了進(jìn)一步分析各大類(lèi)之間的關(guān)聯(lián)性,建立一個(gè)數據類(lèi)別表(同一條處方中出現某一類(lèi)藥物中兩味或兩味以上,即判定使用了該類(lèi)別中藥)。每條記錄表示一位病人用藥的類(lèi)別信息,其中第一項表示病人編號,編號之后的每一位表示該類(lèi)別藥物是否在該處方中使用,1表示使用,0表示未使用。
按照上述方法建成中藥藥物數據庫,其中包括:包含所有藥物的處方數據集、統計藥物頻次的藥物計數數據集、由專(zhuān)業(yè)醫生按照性味、功用劃分的六種不同類(lèi)別的高頻藥物數據集以及判斷處方中是否使用某類(lèi)藥物的類(lèi)別數據集。
3 中醫處方經(jīng)驗的挖掘方法
3.1 對每一類(lèi)藥物中包含的各味中藥進(jìn)行關(guān)聯(lián)規則建模
首先對數據庫中的藥物進(jìn)行頻數統計,即在處方中出現的次數;然后將數據庫中所有同類(lèi)別的藥物按照其在整體處方中出現的頻數降序排列。如果藥物排列靠前說(shuō)明其在處方中出現頻率較高,為醫生的常用中藥,具有較高的參考價(jià)值。同時(shí),參考專(zhuān)業(yè)醫生的經(jīng)驗,本文將支持度和置信度的閾值均設置為10%,將其視為指導臨床應用意義較大。對各類(lèi)藥物數據采用Apriori算法建模,生成每一類(lèi)別中藥間的關(guān)聯(lián)規則。
3.2 對六類(lèi)藥物之間進(jìn)行關(guān)聯(lián)性規則建模
逐條分析223條中藥處方中所包含的藥物類(lèi)別(同一條處方中出現某一類(lèi)藥物兩味或兩味以上,即認定含有該類(lèi)別中藥),統計223條中藥處方中每一類(lèi)別藥物的應用頻數,將其在數據庫中由高到低依次排列。根據專(zhuān)業(yè)醫生的經(jīng)驗,設置支持度和置信度的閾值均為10%,將其視為指導臨床應用意義較大。對類(lèi)別數據采用Apriori算法建模,生成六類(lèi)中藥其類(lèi)別之間的關(guān)聯(lián)規則。
4 關(guān)聯(lián)性分析
4.1 同類(lèi)別中藥的關(guān)聯(lián)分析
將關(guān)聯(lián)規則按照支持度降序排序,體現出常用藥對以及多味中藥同時(shí)出現的規律。以第一大類(lèi)藥物為例,通過(guò)對關(guān)聯(lián)規則的統計分析發(fā)現:在此類(lèi)中藥處方中,三味中藥同時(shí)出現的概率高達65%;四味中藥中藥同時(shí)出現的概率大約在31%左右;五味中藥同時(shí)出現的概率減少到14%左右;六味中藥同時(shí)出現的概率驟減到1%;而七味及以上中藥同時(shí)出現的概率則為0。第一類(lèi)藥物的部分關(guān)聯(lián)規則如表1。
對同一類(lèi)藥物,本文采用定向網(wǎng)絡(luò )關(guān)系圖表示藥對之間的關(guān)系。連接兩位中藥之間的連線(xiàn)越粗,表明這個(gè)藥對出現在處方中的頻數越高;越細就表明這個(gè)藥對出現在處方中的頻率越低。圖2所示為輸出第一類(lèi)藥物中頻數最高的中藥與其它各味中藥的關(guān)聯(lián)關(guān)系的定向網(wǎng)絡(luò )圖。
結論分析:
縱觀(guān)全部類(lèi)別的所有頻繁項集,發(fā)現在各類(lèi)藥物中,往往是同類(lèi)別藥物多味聯(lián)用,以增強其功效;而在聯(lián)用時(shí),又會(huì )有一定的味數限制,數目通常為三味至五味為多。通過(guò)定向網(wǎng)絡(luò )圖可以分析出針對某一種藥物與其它中藥成對出現的規律:由處方中頻數高的藥物組成的藥對,其之間的關(guān)聯(lián)關(guān)系更為密切。
4.2 不同類(lèi)別藥物之間的關(guān)聯(lián)性分析
在223條有效的類(lèi)別數據記錄中,生成的規則總數為154條,為了便于結果分析,將其按照支持度降序排列。通過(guò)對關(guān)聯(lián)規則的統計分析得出:前兩類(lèi)藥的支持度高達95.5%;前三類(lèi)藥的支持度為89%;前四類(lèi)藥的支持度為70.9%;前五類(lèi)藥的支持度驟減到25.6%;而全部六類(lèi)藥的支持度僅為5.8%?,F僅摘取前項含有前兩類(lèi)中藥的關(guān)聯(lián)規則見(jiàn)表2。
結論分析:
前四類(lèi)中藥之間的相互關(guān)系最為密切,其次是這四類(lèi)中藥分別與第五、六類(lèi)之間的關(guān)系,而第五、六類(lèi)中藥之間關(guān)系的密切程度則大大降低。從關(guān)聯(lián)規則的結果可以分析得出前四個(gè)類(lèi)別的藥物屬于常用和聯(lián)用的藥物。
5 結語(yǔ)
本文通過(guò)對中藥數據集的特征化處理,采用基于頻繁項集的Apriori經(jīng)典關(guān)聯(lián)規則算法,對中醫處方中藥物的頻繁項集和藥物之間的關(guān)聯(lián)關(guān)系進(jìn)行了有益的探索,發(fā)現了常用藥物組合及配伍特點(diǎn),獲得了普通處方分析較難獲得的處方經(jīng)驗信息。實(shí)驗結果證明:使用關(guān)聯(lián)規則對中藥數據庫建模,可以挖掘出中醫在治療某種疾病方面的用藥特點(diǎn),為研究臨床用藥規律提供了有效方法。
參考文獻:
[1]Viktor Mayer-Schonberger Kenneth Cukier盛楊燕,周濤 譯 大數據時(shí)代[M].浙江人民出版社.2013.1
[2]jiaweihanMichelineKamber Jian Pei. 數據挖掘概念與技術(shù)[M].范明 孟曉峰 譯.機械工業(yè)出版社.2012: 243
[3]毛宇星,陳彤兵,施伯樂(lè ). 一種高效的多層和概化關(guān)聯(lián)規則挖掘方法[J].軟件學(xué)報, 2011,22(12):2965-2980.
[4] 陳克寒,韓盼盼,吳建.基于用戶(hù)聚類(lèi)的異構社交網(wǎng)絡(luò )推薦算法[J]計算機學(xué)報,2013,36(2):350-359
[5]張琳,陳燕,李桃迎.決策樹(shù)分類(lèi)算法研究[J].2011,37(13):66-68
[6]楊秀萍.大數據下關(guān)聯(lián)規則算法的改進(jìn)及應用[J].計算機與現代化,2014,(12):23-27
[7] AGRWAL R,SRIKAN R.Fast algorithms for mining association rules in large databases[C]/Proceedings of the 20th International Conference on Very Large Data Bases.San Francisco: Morgan Kaufmann Publishers, 1994:487—499.
[8]江蘇新醫學(xué)院.中藥大辭典.上海:上??茖W(xué)技術(shù)出版社,1986.
本文來(lái)源于中國科技期刊《電子產(chǎn)品世界》2016年第2期第37頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處。
評論