建立中游知識圖來(lái)支撐企業(yè)主權式AI
1 前言
在上一期里,介紹了<三層KG架構>的設計流程。在本文里,將介紹這種新潮KG(Knowledge Graph)架構的重要用途之一,就是:基于本地行業(yè)自主性KG數據,展開(kāi)訓練中游GNN模型,來(lái)支持下游企業(yè)建立可信、可控、可更新的主權式AI系統。
大家都知道,如今,GenAI逐漸變成知識整合與創(chuàng )新推理的工具,而非黑箱結果輸出的機器而已。于是,我們可以透過(guò) <KG+GNN+CF+LLM>的整合架構設計,推導出高效的主權AI實(shí)踐流程。其包含大語(yǔ)言模型(LLM)協(xié)助構建KG、并訓練GNN推理潛在知識與反事實(shí)鏈接(Counterfactual Link, 簡(jiǎn)稱(chēng):CF_Link), 經(jīng)由人類(lèi)進(jìn)行創(chuàng )新決策后回饋知識圖,最終結合RAG與LLM完成可信、可控、可更新的主權AI系統。
2 復習:三層KG架構設計
由于LLM非萬(wàn)能,而企業(yè)KG卻是可信知識核心。采用<低監督/少標注/高彈性>的實(shí)踐策略,其可擴展性與低成本優(yōu)勢,非常契合主權AI的自主性與本地性目標。在主權AI的知識圖譜(KG)建構過(guò)程中,專(zhuān)家知識不是輔助,而是設計師。他們決定哪些知識能形成語(yǔ)意路徑,哪些節點(diǎn)之間存在潛在可推理的因果鏈。例如,三層KG架構的特質(zhì)如下:
● KG分為<上游-中游-下游>三階段金字塔結構,彼此分工清晰又互補,為L(cháng)LM、GNN與人類(lèi)決策提供堅實(shí)的知識支撐。
● 上游通用性KG:善用開(kāi)源的行業(yè)性知識,避免從零建構,減少80%中下游KG開(kāi)發(fā)成本。
● 中游特定領(lǐng)域性KG:結合企業(yè)內部數據,融合文化、地區與組織習慣的知識模式。捕捉真實(shí)商業(yè)語(yǔ)境,為GNN提供語(yǔ)意嵌入訓練基礎。
● 下游任務(wù)型應用KG:支持多樣化AI應用任務(wù)(推薦、風(fēng)險評估),增加營(yíng)收(交叉推薦)、降低決策風(fēng)險。
3 建立行業(yè)中游KG:以乳癌領(lǐng)域為例
3.1 選擇上游通用性大KG
本案例的緣由是:因為在醫療領(lǐng)域的開(kāi)源、開(kāi)放DRKG( Drug repurposing knowledge graph, 中文譯:藥物再利用知識圖譜),其支持下游的精準醫療AI任務(wù)上,表現非常亮麗。
同時(shí),人們也從生物知識庫中整合了以疾病和基因為中心的多種關(guān)系,開(kāi)發(fā)了一個(gè)使用交互張量分解來(lái)識別疾病基因關(guān)聯(lián)的通用性大KG完成模型,稱(chēng)為:KDGene。其透過(guò)感知相關(guān)知識,模型能夠學(xué)習到不同關(guān)系的內涵,賦予生物實(shí)體和關(guān)系更全面、更精確的表示,有利于疾病基因預測。如下圖1所示:
圖1 選擇適當的上游大KG
這些上游大KG的預訓練知識,能有效節省中、下游模型的訓練速度和成本。
3.2 建立中游領(lǐng)域性KG
本案例是針對<乳腺癌癥>領(lǐng)域,使用神櫻AI團隊自己開(kāi)發(fā)的SAK-Builer工具,建立了中游領(lǐng)域性KG,取名為:MutationKG。其架構如下圖2所示:
圖2 建立中游KG
3.3 訓練<主權式>中游領(lǐng)域性GNN模型
在訓練時(shí),首先從上游DRKG里讀取藥物實(shí)體的嵌入向量(Embeddings), 成為這中游MutationKG的< 藥物> 節點(diǎn)的起始特征(Initial Features)。同時(shí),也從上游KDGene里讀取基因實(shí)體的嵌入向量(Embeddings),成為這中游MutationKG的< 基因>節點(diǎn)的起始特征。然后,搭配本地機構自主性癌癥及其類(lèi)型數據,展開(kāi)訓練中游GNN模型,如下圖3所示:
圖3 訓練出自主的中游KG
此時(shí),訓練1000回合之后,繼續加碼訓練25 回合,就完成了。
于是,已成功訓練出一個(gè)能夠把突變數據轉換成嵌入向量的GNN模型,而且嵌入已儲存于mutation_embeddings_gin.csv檔案里,可供后續下游任務(wù)使用(如分類(lèi)、群聚、可視化、或與影像特征融合等)。
3.4 支撐<主權式>下游應用型<KG+GNN>模型
這項下游任務(wù)結合了醫學(xué)影像特征(Ultrasound/MRI)進(jìn)行多模態(tài)推論,也將GNN輸出的嵌入與CNN影像特征進(jìn)行融合,提供AI輔助診斷(如預測、分類(lèi)等)。
如下圖4所示:
圖4 支撐下游主權AI開(kāi)發(fā)
關(guān)于超音波影像中的疑似的腫瘤評估,定義于美國放射學(xué)會(huì )所制定BI-RADS的描述項目及描述特征。BIRADS是指美國放射學(xué)會(huì )(ACR)的乳腺影像報告和數據系統(Breast Imaging Reporting and Data System) 的縮寫(xiě)。BI-RADS分級標準被廣泛應用于乳腺的各種影像學(xué)檢查,如乳腺鉬靶X線(xiàn)攝影、彩超、核磁共振,是用來(lái)評價(jià)乳腺病變良惡性程度的一種評估分類(lèi)法。
4 邁向決策式主權AI
反事實(shí)推理(Counterfactual Inference)與KG的結合愈來(lái)愈重要?;贙G+GNN的應用:包括社交網(wǎng)絡(luò )分析、醫療知識圖譜、推薦系統等,反事實(shí)推理能夠幫助人們理解和分析圖結構中的因果關(guān)系。例如,本案例的決策式AI可以提供治療建議:「如果采用另一種治療方案,病情可能會(huì )如何發(fā)展?」。利用反事實(shí)分析來(lái)理解不同治療方案的潛在效果,進(jìn)行個(gè)性化的治療決策支持。
在這三層KG體系的支持下,決策式AI發(fā)揮反事實(shí)推理能力。例如思考:如果刪除一個(gè)可能的疾病節點(diǎn),診斷預測結果會(huì )如何變化?使用反事實(shí)分析來(lái)進(jìn)行因果推理,找出可能的誤診或未被考慮的疾病。本文提出一套融合大型語(yǔ)言模型(LLM)與知識圖譜(KG)的實(shí)踐方案,作為企業(yè)或產(chǎn)業(yè)建立主權AI 核心的關(guān)鍵基礎架構。
5 結語(yǔ)
企業(yè)要打造可信、可控、可更新的主權AI,不靠黑箱,而是靠自己建構知識圖譜(KG),結合圖神經(jīng)網(wǎng)絡(luò )(GNN)與大型語(yǔ)言模型(LLM)。透過(guò)三層KG架構(上游、中游、下游),企業(yè)能融合內部數據與行業(yè)知識,推動(dòng)智能推理與反事實(shí)分析,建立真正屬于自己的主權式AI系統。
(本文來(lái)源于《EEPW》202505)
評論