大數據醫療時(shí)代的人工智能與隱私保護
王旭
本文引用地址:http://dyxdggzs.com/article/201905/401030.htm?。ㄙF州大學(xué)大數據與信息工程學(xué)院,貴州省量子信息和大數據應用技術(shù)研究院,貴州,貴陽(yáng) 550025)
摘要:近年來(lái),隨著(zhù)大數據挖掘與分析等方法的逐漸成熟,人工智能技術(shù)已經(jīng)在醫療領(lǐng)域廣泛應用。本文詳細討論了在醫療數據采集端與人工智能應用端隱私保護所面臨的各項問(wèn)題,從技術(shù)的角度、法律的角度以及倫理道德的角度分別分析了醫療隱私安全,并最終提出了四條建議,為醫療行業(yè)隱私保護的理論和實(shí)踐發(fā)展提供了可行路徑。
關(guān)鍵詞:醫療大數據;深度學(xué)習;卷積神經(jīng)網(wǎng)絡(luò );人工智能;隱私保護
在醫療行業(yè)中,醫院信息系統基本完成了醫院內部的流程管理、數據積累等工作,現在正面臨著(zhù)海量數據的挑戰 [1] ,醫療已經(jīng)進(jìn)入了大數據時(shí)代。近年來(lái),隨著(zhù)機器學(xué)習技術(shù)和人工智能的發(fā)展,大數據和醫療的結合更是被推向縱深。從圖像識別 [2] 、圖像檢索 [3] 到復雜疾病的診斷 [4-5] ,人工智能無(wú)一不正發(fā)揮著(zhù)重要作用。隨著(zhù)技術(shù)領(lǐng)域的快速進(jìn)步,挑戰也隨之而來(lái),其中最大的一個(gè)挑戰就是隱私保護的問(wèn)題 [6] 。
1 大數據醫療時(shí)代的人工智能
大數據很早就開(kāi)始為醫療行業(yè)保駕護航了,但到底什么是大數據醫療,這里首先做一個(gè)定義。學(xué)術(shù)界通常通過(guò)4V來(lái)描述大數據:海量數據規模(Volume)、快速的數據流轉(Velocity)、多樣的數據類(lèi)型(Variety)和較低的價(jià)值密度(Value) [7] 。從不同領(lǐng)域出發(fā),對大數據的理解也各不相同。在醫療領(lǐng)域,這4V也同樣成立:醫療數據正以史無(wú)前例的速度不斷更迭(Volume);病種繁多,病人各異,醫療數據必須快速流轉(Velocity);醫療數據有文字、有影像,甚至各個(gè)醫院還有各種不同格式的文件(Variety);對醫療數據的匯聚通用還遠遠不夠(Value),要想辦法提高對醫療行業(yè)數據的“加工能力”,通過(guò)“加工”實(shí)現數據的“增值”。
大數據醫療伴隨著(zhù)新的人工智能技術(shù)的進(jìn)步而蓬勃發(fā)展,例如用人工智能來(lái)進(jìn)行預測和生成推薦系統,其中最典型的應用之一是圖像分析。目前國內診斷病人CT 圖像還普遍采用兩個(gè)醫生同時(shí)查看的形式,當兩個(gè)醫生對該圖像得出相同的判斷時(shí)容易認定,但當兩個(gè)醫生得到的結論不同時(shí)則需要討論。這種方法是為了提高診斷的準確率,但是耗費人力。卷積神經(jīng)網(wǎng)絡(luò )(Convolutional neural networks,CNN)是一種典型的深度學(xué)習算法,已經(jīng)在醫學(xué)圖像領(lǐng)域擁有廣泛的應用。CNN可以接受各種醫學(xué)圖像的訓練,包括放射科、病理科、皮膚科和眼科等。CNN獲取輸入圖像,并使用簡(jiǎn)單的操作(如卷積、匯集和完全的連接層)將其順序轉換為扁平向量,輸出向量的元素表示疾病存在的概率,因此可以輔助醫生進(jìn)行診斷,在很大程度上緩解醫生的工作量 [8] 。另外一個(gè)人工智能的醫療大數據應用是預測治療路徑,例如通過(guò)多種類(lèi)多形式數據預測一個(gè)內傷患者發(fā)生大出血的概率,并建議采取干預治療,或者預測一個(gè)重傷人員在一年內死去的概率,從而建議從傳統治療轉為臨終關(guān)懷 [6] 。
在真實(shí)的應用場(chǎng)景中,人工智能輔助醫療要通過(guò)大量的數據積累,包括疾病診斷記錄、病人用藥效果、基因數據、家庭病史、行為數據甚至社會(huì )環(huán)境狀況數據等。在國內,要實(shí)現上述數據積累,最重要的壁壘是打通各個(gè)醫院和社區間的數據交換共享渠道。美國基于此考慮建設了一個(gè)電子健康記錄系統(Electronichealth records,EHRs),十年內積累了1000萬(wàn)名病人的記錄。EHR的潛在應用價(jià)值是巨大的,如果好好加以利用,這相當于積累了20萬(wàn)年醫生的智慧和1億年的疾病情況 [9] 。在這樣的技術(shù)不斷突飛猛進(jìn)的同時(shí),我們享受到了科技進(jìn)步帶來(lái)的好處。但我們不禁要問(wèn),在人工智能學(xué)習分析大背景數據的同時(shí),病人的隱私被侵犯了嗎?存在道德風(fēng)險嗎?我們的現行法律能否保障我們在治療中和治療后的權益?
2 健康隱私
個(gè)人隱私向來(lái)是一個(gè)很難定義的概念。因為個(gè)人隱私無(wú)法像上文中的大數據一樣用幾個(gè)“V”就可以描述,個(gè)人隱私的定義要與其內涵強關(guān)聯(lián),與行為人強關(guān)聯(lián),涉及到內涵溢出的目的、頻率以及具體信息 [6] 。當這些關(guān)聯(lián)規則被違背時(shí),我們可以說(shuō)個(gè)人隱私被侵犯了。隱私侵犯可以發(fā)生在錯誤的行為人接觸到信息時(shí),或者內涵溢出的目的動(dòng)機不符合預設時(shí),或者內涵溢出的頻率超出規定時(shí)等。健康隱私的內涵包括但不限于患者的隱私在病歷中的詳細記載,病情、個(gè)人史、家族史、接觸史、身體隱私部位、異常生理物征等病理和個(gè)人生活秘密。侵犯個(gè)人健康隱私是否成立不應基于信息量或對象數據集的大小,因為即使對象不大其后果仍可能是很?chē)乐氐?。在人工智能醫療應用過(guò)程中的個(gè)人隱私問(wèn)題主要可出現在圖1所示各環(huán)節。主要造成溢出的過(guò)程是數據匯聚和人工智能應用兩個(gè)環(huán)節,以下分別予以討論。
3 數據匯聚的過(guò)程中產(chǎn)生的隱私問(wèn)題
在數據匯聚過(guò)程中的隱私問(wèn)題主要指擔憂(yōu)隱私被直接侵犯的情況,或者可以理解為如圖1所示輸入和存儲中造成的內涵外溢。這可以是可預測的結果,例如乙肝病毒庫的隱私泄露可能導致當事人找工作受到歧視。有的結果是不可預測的,比如一個(gè)人總是擔心自己的隱疾被泄漏出去而導致精神緊張甚至引發(fā)抑郁癥。也要考慮到另一種情況,即是很多隱私是在當事人不知情的狀況下泄漏的,比如某些公司刻意收集網(wǎng)絡(luò )上的個(gè)人隱私狀況或非法入侵某些醫療機構數據庫竊取數據,即使這些泄漏數據并未被直接加以利用、給當事人帶來(lái)?yè)p失,甚至記錄也已被刪除,然而此種情況也應屬于醫療數據安全問(wèn)題,可能有潛在的危害,應該被予以重視。
數據匯聚過(guò)程中的隱私問(wèn)題也涉及很多法律和道德問(wèn)題。健康隱私數據的來(lái)源包含很多方面:電子病歷、醫療保險、智能健康終端設備和社交媒體等。美國關(guān)于隱私安全的立法較早,1974年即通過(guò)《隱私權法》(The Privacy Act),后在2003年生效《健康保險攜帶與責任法》(Health Insurance Portability andAccountability Act, HIPAA)。通過(guò)HIPAA規定了很多EHR的隱私保護細則,對使用EHR系統也有明確的規定,是否可以對EHR加以利用取決于信息是如何建立的、誰(shuí)在維護以及當事人情況 [10] 。中國法律暫未對個(gè)人健康隱私有進(jìn)一步明確的規范,只是在《中華人民共和國網(wǎng)絡(luò )安全法》第四十四條強調了“任何個(gè)人和組織不得竊取或者以其他非法方式獲取個(gè)人信息,不得非法出售或者非法向他人提供個(gè)人信息?!币约罢趯徸h中的《中華人民共和國基本醫療衛生與健康促進(jìn)法》第二十一條提到:“國家保護與公民健康有關(guān)的個(gè)人隱私,確保個(gè)人健康信息安全。除法律法規規定或本人同意外,任何組織和個(gè)人不得獲取、利用和公開(kāi)公民個(gè)人健康信息?!睆倪@兩條法律法規的對比可見(jiàn),我們的相關(guān)法律和規范還比較宏觀(guān),缺乏對具體情況的考慮。我國在2018年5月1日開(kāi)始實(shí)施的《信息安全技術(shù)個(gè)人信息安全規范》,是一部相對比較完整,從個(gè)人信息的收集、保存、使用等角度提出保護個(gè)人信息安全應遵循的原則。然而,我們還缺少針對醫療隱私保護的詳細的法律法規,現階段在健康數據系統還沒(méi)有打通的情況下矛盾尚不明顯,一旦有了國家范圍內類(lèi)似美國EHR的數據共享系統,隱私保護問(wèn)題將被無(wú)限放大,我們應該提前做好預防。
有的人會(huì )問(wèn),在數據原始采集過(guò)程中有一個(gè)關(guān)鍵的問(wèn)題,即為了研究的目的或更多人的利益著(zhù)想,某些健康隱私是否可直接被脫敏后再進(jìn)行存儲和使用。然而首先脫敏的方法和標準沒(méi)有定性,其次,現階段的某些技術(shù)達到了即使脫敏后也可以通過(guò)多數據集的比對重新配對數據的程度,從而使脫敏失效 [11] 。
4 人工智能數據使用過(guò)程中產(chǎn)生的隱私問(wèn)題
如圖1所示,人工智能的數據輸出包含多種方面,比如智能輔助診療,預測診療手段、精準切除以及各種基因處理方法等。在數據輸出過(guò)程中的隱私安全問(wèn)題不可回避,其直接造成的一類(lèi)后果就是帶來(lái)歧視。例如在聘用過(guò)程中如果雇主通過(guò)某些渠道的診療手段泄漏獲悉擬聘用人員有慢性病或一些較難治療的疾病,有很大可能會(huì )招致聘用失敗,而這是違反《勞動(dòng)法》的。特別是針對一類(lèi)在聘用時(shí)其實(shí)并沒(méi)有疾病但屬于染病高風(fēng)險人群(可能是基因數據的分析結果或是家庭病史甚至社區和性取向等帶來(lái)的高風(fēng)險等),這樣的信息泄露很顯然是不公平的。最近一項針對臨床試驗參與者的調查發(fā)現,6.6%的參與者“非常擔心”,14.9%的參與者“有點(diǎn)擔心”,即“如果信息與我聯(lián)系起來(lái),我會(huì )受到歧視”。但正如調查報告作者承認的,特定的特征研究人群的主觀(guān)導向,尤其是他們已經(jīng)決定參加臨床試驗的事實(shí),可能會(huì )影響到他們的決定從而最終影響預測結果的準確性 [12] 。
另一類(lèi)在人工智能預測結果中產(chǎn)生的隱私侵犯可能不會(huì )直接帶來(lái)嚴重的后果,但因為擔心自己的隱私權受到侵犯,可能會(huì )使人精神緊張、暴躁甚至產(chǎn)生精神疾病。比如在自動(dòng)比對基因庫的過(guò)程中發(fā)現的一類(lèi)問(wèn)題可能會(huì )引致思考別人看到會(huì )怎么辦的想法,從而導致一些焦慮。
5 總結并提出建議
首先不能因噎廢食,應該區分性對待隱私所有權問(wèn)題。包括脫敏程度,數據使用者以及使用目的。例如疾控中心可以用流感應對數據對比醫院發(fā)熱病人狀態(tài),來(lái)重新考核現行流感控制措施,這樣做確實(shí)在未經(jīng)許可時(shí)侵犯了健康隱私(未予泄漏),但其目的是為潛在的發(fā)病做更好的服務(wù)。
其次須采用一些創(chuàng )新的方法去追求醫療隱私問(wèn)題的平衡性。新的人工智能技術(shù)不斷涌現,某些隱私數據在積累時(shí)尚不能考慮到其應用場(chǎng)景和應用范圍,所以也不能提前征求被采集者的意見(jiàn),而當需要使用其數據時(shí),很多情況下難以做到一一征求意見(jiàn),特別是在看似無(wú)害的數據使用情況下。因此,利用新的人工智能技術(shù),在數據匯聚的過(guò)程中即做好甄別和預判數據使用權限工作,提前征求當事人意見(jiàn),則可避免許多矛盾。
第三,如上文所示,加強醫療數據安全領(lǐng)域立法,特別是細致的、針對信息是如何建立的、誰(shuí)在維護以及當事人情況的法律法規的建立是有急切需求的。
最后,建議成立國家、省、市級“關(guān)鍵數據安全委員會(huì )”,對醫療數據如何開(kāi)放共享,如何判定隱私泄漏責任權屬以及新技術(shù)的應用等問(wèn)題,起到關(guān)鍵指導作用。
參考文獻
[1]Stanford Health. Harnessing the power of data in health. Stanford Medicine 2017 HealthTrends Report (2017).
[2]Russakovsky O,et al. Imagenet large scale visual recognition challenge. Int. J. Compute. Vis.115:211-252 (2015).
[3]Litjens G,et al. A Survey on deep learning in medical image analysis. Med. Image Anal.42:60-88 (2017).
[4]Esteva A,et al. Dermatologist-level classification of skin cancer with deep neural networks.Nature 542:115-118 (2017).
[5]Fauw J,et al. Clinically applicable deep learning for diagnosis and referral in retinal disease.Nat. Med. 24, 1342 (2018).
[6]Nicholson P II,Glenn C I.Privacy in the age of medical big data. Nat. Med. 25:37-43 (2019).
[7]魏琴,歐陽(yáng)智,袁華.數融未來(lái):圖解大數據+產(chǎn)業(yè)融合.貴州人民出版社,貴陽(yáng),2018.
[8]Esteva A, et al. A guide to deep learning in healthcare. Nat. Med. 25:24-29 (2019).
[9]National Committee on Vital and Health Statistics and its Privacy, Security, and ConfidentialitySubcommittee, U.S. Department of Health and Human Services. Health information privacybeyond HIPAA: a 2018 environmental scan of major trends and challenges[R/OL]. https://ncvhs.hhs.gov/wp-content/uploads/2018/05/NCVHS-Beyond-HIPAA_Report-Final-02-08-18.pdf(2017).
[10]Terry N P. Existential challenges for healthcare data protection in the United States. Ethics,Med., & Pub. Health 3:19–27 (2017).
[11]Gymrek M, et al. Identifying personal genomes by surname inference. Science 339: 321–324 (2013).
[12]Mello M M, Lieou V,Goodman S N. Clinical trial participants’ views of the risks and benefitsof data sharing. N. Engl. J. Med. 378:2202–2211 (2018).
作者簡(jiǎn)介:
王旭,男,博士,貴州大學(xué)大數據與信息工程副院長(cháng),人工智能開(kāi)放創(chuàng )新平臺*聯(lián)合學(xué)者,主要從事人工智能和量子信息相關(guān)研究。
*注:人工智能開(kāi)放創(chuàng )新平臺:是由貴陽(yáng)市政府與中國人工智能產(chǎn)業(yè)創(chuàng )新聯(lián)盟、英特爾三方共同打造的開(kāi)放平臺。平臺結合端到端的全面技術(shù),打造軟硬件開(kāi)放創(chuàng )新平臺,加速產(chǎn)業(yè)應用創(chuàng )新,通過(guò)打造人工智能開(kāi)放平臺、創(chuàng )立人工智能創(chuàng )新加速器等,建立完善的技術(shù)生態(tài)、在人工智能垂直領(lǐng)域應用、產(chǎn)業(yè)對接和市場(chǎng)推廣等發(fā)揮各方優(yōu)勢和資源特色,加速中國人工智能的發(fā)展和應用創(chuàng )新。
本文來(lái)源于科技期刊《電子產(chǎn)品世界》2019年第6期第79頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處
評論