基于關(guān)聯(lián)規則的醫生診療數據挖掘系統的實(shí)現
數據挖掘從20世紀80年代提出到現在,不過(guò)短短20多年的時(shí)間,但其應用已非常廣泛,不僅用于科研領(lǐng)域,在商業(yè)領(lǐng)域的應用也毫不遜色,尤其是用于銀行、電信、保險、交通、零售(如超級市場(chǎng))等領(lǐng)域。數據挖掘在醫學(xué)領(lǐng)域的應用也有著(zhù)廣泛的前景。在醫學(xué)領(lǐng)域存在著(zhù)大量的數據,包括病人病史、診斷、檢驗、和治療的臨床信息,藥品管理信息,醫院管理信息等。數據挖掘應用到醫學(xué)領(lǐng)域,對醫學(xué)數據進(jìn)行分析,提取隱含的有價(jià)值的信息能夠促進(jìn)醫院管理者作出明智決策、醫生對病人的正確診斷和治療。這對促進(jìn)人類(lèi)健康、保持健康的生活質(zhì)量都有積極的意義。
本文引用地址:http://dyxdggzs.com/article/226778.htm1 基于關(guān)聯(lián)規則數據挖掘技術(shù)分析
1.1 數據挖掘概述
1.1.1 數據挖掘的定義
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過(guò)程。這個(gè)定義包含幾層含義,數據源必須是真實(shí)的、大量的、含噪聲的;發(fā)現的是用戶(hù)感興趣的知識;發(fā)現的知識要可接受、可理解、可運用;并不要求發(fā)現放之四海而皆準的知識,僅需支持特定的發(fā)現問(wèn)題。
1.1.2 數據挖掘的過(guò)程
數據挖掘過(guò)程一般需要經(jīng)歷數據準備、數據開(kāi)采、結果表述和解釋三個(gè)主要步驟。
(1)數據準備。數據準備是數據挖掘中的一個(gè)重要步驟,數據準備是否做好將直接影響到數據挖掘的效率、準確度以及最終模式的有效性。這個(gè)階段又可以進(jìn)一步分為三個(gè)子步驟:數據集成、數據選擇、數據預處理。
(2)數據開(kāi)采。數據開(kāi)采階段選定某個(gè)特定的數據挖掘算法(如關(guān)聯(lián)規則、分類(lèi)、回歸、聚類(lèi)等算法),用于搜索數據中的模式。這是數據挖掘過(guò)程中最關(guān)鍵的一步,也是技術(shù)難點(diǎn)。
(3)結果表述和解釋。根據最終用戶(hù)的決策目的,對提取的信息進(jìn)行分析,把最有價(jià)值的信息區分出來(lái),并且通過(guò)決策支持工具提交給決策者。因此,這一步驟的任務(wù)不僅是把結果表達出來(lái),還要對信息進(jìn)行過(guò)濾處理。如果不能令決策者滿(mǎn)意,需要重復以上的數據挖掘過(guò)程。
1.2 關(guān)聯(lián)規則概述
給定一個(gè)事務(wù)(交易)數據庫,人們往往希望發(fā)現事務(wù)中的關(guān)聯(lián)事實(shí),即事務(wù)中一些項目的出現必定隱含著(zhù)同次事務(wù)中其他項目的出現,這是關(guān)聯(lián)規則的一個(gè)簡(jiǎn)單的描述。
設I ={t1,t2 ,-,tm} 是由m 個(gè)不同項目組成的集合,D 是交易數據庫(交易數據庫又稱(chēng)事務(wù)數據庫),其中每一個(gè)交易或事務(wù)T 是I 中一些項目的集合,即T- I.每一個(gè)交易或事務(wù)T 都與一個(gè)惟一的標識符TID 相聯(lián)。
對于項目集X-I,如果X-T,則交易或事務(wù)T 支持X.
如果X 中有k 個(gè)項目,則又稱(chēng)X 為k- 項目集,或X 的長(cháng)度為k.
關(guān)聯(lián)規則是指形式如下的一種數據隱含關(guān)系:X -Y,其中X - I,Y-I,且X-Y = -.
關(guān)聯(lián)規則挖掘的任務(wù)是:在給定的交易或事務(wù)數據庫D 中,發(fā)現D 中所有的頻繁關(guān)聯(lián)規則。所謂頻繁關(guān)聯(lián)規則是指這些規則的支持度、置信度分別不低于用戶(hù)給定的最小支持度和最小置信度。
2 ARFDW 系統設計與實(shí)現
2.1 ARFDW系統框架需求分析
作為通用的數據挖掘框架,ARFDW 要提供對不同操作系統、不同處理平臺的支持;對異構數據源的支持;支持多樣化、可插拔、可組合的數據轉換功能;提供統一的管理和調度功能;處理程序的繼承和開(kāi)放性;要有清晰的框架處理層次以及對元數據的管理等。下面對框架的關(guān)鍵需求進(jìn)行描述。
2.1.1 建立挖掘主題
系統應該支持挖掘主題的建立。在對被挖掘對象進(jìn)行充分分析并確定挖掘主題及數據來(lái)源后,系統能夠通過(guò)挖掘主題配置工具來(lái)創(chuàng )建挖掘主題及關(guān)聯(lián)維度,并生成相應數據庫表及數據記錄映射對象。
2.1.2 異構數據源數據抽取
作為通用框架,系統應該支持盡可能多的異構數據源,異構數據源包括不同廠(chǎng)商、不同版本的數據庫,不同格式的文本等。如ODBC 數據源、(非ODBC)各種關(guān)系型數據庫數據源、應用數據、電子商務(wù)數據、各種文件格式中數據等;同時(shí)提供通用數據訪(fǎng)問(wèn)接口:該接口能夠跨平臺、網(wǎng)絡(luò )訪(fǎng)問(wèn)數據,支持在不同類(lèi)型數據源間建立連接,通過(guò)它可以屏蔽各種數據源之間的差異,為后序工作提供一個(gè)統一的數據視圖。
2.1.3 建立轉換規則
由于業(yè)務(wù)系統的開(kāi)發(fā)一般會(huì )有一個(gè)較長(cháng)的時(shí)間跨度,這就造成同一種數據在業(yè)務(wù)系統中可能會(huì )有多種完全不同的存儲格式。這就要求ETL工具必須對抽取到的數據能進(jìn)行靈活的計算、合并、拆分等轉換操作,系統要能夠不斷地以插件形式添加轉換節點(diǎn)的種類(lèi),就可以不斷地增強ETL工具的功能,以應付各種各樣的數據不一致的問(wèn)題。
2.1.4 執行定時(shí)任務(wù)

評論