一文 Get 汽車(chē)知識的語(yǔ)義網(wǎng)絡(luò )及圖譜構建(1)
出品 | AI科技大本營(yíng)(ID:rgznai100)知識圖譜的概念最早由 Google 在2012 年提出, 旨在架構更智能的搜索引擎,2013年之后開(kāi)始在學(xué)術(shù)界和產(chǎn)業(yè)界普及,目前很多大型互聯(lián)網(wǎng)公司都在積極部署本企業(yè)的知識圖譜,Facebook、百度、阿里、騰訊、美團等企業(yè)的落地應用場(chǎng)景如下圖所示。作為人工智能核心技術(shù)驅動(dòng)力,知識圖譜可以緩解深度學(xué)習依賴(lài)海量數據訓練,需要大規模算力的問(wèn)題,能夠廣泛適配不同的下游任務(wù),且具有良好的解釋性。目前,這一技術(shù)已廣泛應用于搜索、推薦、廣告、風(fēng)控、智能調度、語(yǔ)音識別、機器人等多個(gè)業(yè)務(wù)領(lǐng)域。
從落地行業(yè)來(lái)看,目前知識圖譜的應用主要集中在電商、醫療、金融等商業(yè)和服務(wù)領(lǐng)域,關(guān)于汽車(chē)知識的語(yǔ)義網(wǎng)絡(luò )及知識圖譜構建缺少系統性的指導方法。本文以汽車(chē)領(lǐng)域知識為例,圍繞車(chē)系、車(chē)型、經(jīng)銷(xiāo)商、廠(chǎng)商、品牌等實(shí)體及相互關(guān)系,提供一種從零搭建領(lǐng)域圖譜的思路。如何進(jìn)行圖譜構建?構建挑戰知識圖譜是真實(shí)世界的語(yǔ)義表示,其基本組成單位是“實(shí)體-關(guān)系-實(shí)體”,“實(shí)體-屬性-屬性值”的三元組(Triplet),實(shí)體之間通過(guò)關(guān)系相互聯(lián)結,從而構成語(yǔ)義網(wǎng)絡(luò )。圖譜構建中會(huì )面臨較大的挑戰,但構建之后,可在數據分析、推薦計算、可解釋性等多個(gè)場(chǎng)景中展現出豐富的應用價(jià)值。其中,構建挑戰包括:
Schema 難定義。目前尚無(wú)統一成熟的本體構建流程,且特定領(lǐng)域本體定義通常需專(zhuān)家參與;
數據類(lèi)型異構。通常情況下,一個(gè)知識圖譜構建中面對的數據源不會(huì )是單一類(lèi)型,面對結構各異的數據,知識轉模及挖掘的難度較高;
依賴(lài)專(zhuān)業(yè)知識。領(lǐng)域知識圖譜通常依賴(lài)較強的專(zhuān)業(yè)知識,例如車(chē)型對應的維修方法,涉及機械、電工、材料、力學(xué)等多個(gè)領(lǐng)域知識,且此類(lèi)關(guān)系對于準確度的要求較高,需要保證知識足夠正確;
數據質(zhì)量無(wú)保證。挖掘或抽取信息需要知識融合或人工校驗,才能作為知識助力下游應用。
構建后將獲得的收益:
- 知識圖譜統一知識表示。通過(guò)整合多源異構數據,形成統一視圖;
- 語(yǔ)義信息豐富。通過(guò)關(guān)系推理可以發(fā)現新關(guān)系邊,獲得更豐富的語(yǔ)義信息;
- 可解釋性強。顯式的推理路徑對比深度學(xué)習結果具有更強的解釋性;
- 高質(zhì)量且能不斷積累。根據業(yè)務(wù)場(chǎng)景設計合理的知識存儲方案,實(shí)現知識更新和累積。
架構設計技術(shù)架構主要分為構建層、存儲層及應用層三大層,架構圖如下:
構建層。包括Schema定義,結構化數據轉模,非結構化數據挖掘,以及知識融合;
存儲層。包括知識的存儲和索引,知識更新,元數據管理,以及支持基本的知識查詢(xún);
服務(wù)層。包括智能推理、結構化查詢(xún)等業(yè)務(wù)相關(guān)的下游應用層。
構建步驟及流程
依據架構圖,具體構建流程可分為四步:本體設計、知識獲取、知識入庫,以及應用服務(wù)設計及使用。
本體構建本體(Ontology)是公認的概念集合,本體的構建是指依據本體的定義,構建出知識圖譜的本體結構和知識框架。基于本體構建圖譜的原因主要有以下幾點(diǎn):
明確專(zhuān)業(yè)術(shù)語(yǔ)、關(guān)系及其領(lǐng)域公理,當一條數據必須滿(mǎn)足Schema預先定義好的實(shí)體對象和類(lèi)型后,才允許被更新到知識圖譜中。
將領(lǐng)域知識與操作性知識分離,通過(guò)Schema可以宏觀(guān)了解圖譜架構及相關(guān)定義,無(wú)須再從三元組中歸納整理。
實(shí)現一定程度的領(lǐng)域知識復用。在構建本體之前,可以先調研是否有相關(guān)本體已經(jīng)被構建出來(lái),這樣可以基于已有本體進(jìn)行改進(jìn)和擴展,達到事半功倍的效果。
基于本體的定義,可以避免圖譜與應用脫節,或者修改圖譜Schema比重新構建成本還要高的情況。
按照知識的覆蓋面來(lái)看,知識圖譜可以劃分為通用知識圖譜和領(lǐng)域知識圖譜,通用圖譜更注重廣度,強調融合更多的實(shí)體數量,但對精確度的要求不高,很難借助本體庫對公理、規則及約束條件進(jìn)行推理和使用。而領(lǐng)域圖譜的知識覆蓋范圍較小,但知識深度更深,往往是在某一專(zhuān)業(yè)領(lǐng)域上的構建。
考慮對準確率的要求,領(lǐng)域本體構建多傾向于手工構建的方式,例如代表性的七步法、IDEF5方法等[1],該類(lèi)方法的核心思想是,基于已有結構化數據,進(jìn)行本體分析,將符合應用目的和范圍的本體進(jìn)行歸納及構建,再對本體進(jìn)行優(yōu)化和驗證,從而獲取初版本體定義。若想獲取更大范疇的領(lǐng)域本體,則可以從非結構化語(yǔ)料中補充,考慮手工構建過(guò)程較長(cháng),以汽車(chē)領(lǐng)域為例,提供一種半自動(dòng)本體構建的方式。
構建詳細步驟如下:
- 首先,收集大量汽車(chē)非結構化語(yǔ)料(如車(chē)系咨詢(xún)、新車(chē)導購文章等),作為初始個(gè)體概念集,利用統計方法或無(wú)監督模型(TF-IDF、BERT等)獲取字特征和詞特征;
- 其次,利用BIRCH聚類(lèi)算法對概念間層次劃分,初步構建起概念間層級關(guān)系,并對聚類(lèi)結果進(jìn)行人工概念校驗和歸納,獲取本體的等價(jià)、上下位概念;
- 最后,使用卷積神經(jīng)網(wǎng)絡(luò )結合遠程監督的方法,抽取本體屬性的實(shí)體關(guān)系,并輔以人工識別本體中的類(lèi)及屬性的概念,構建起汽車(chē)領(lǐng)域本體。
上述方法可有效利用BERT等深度學(xué)習技術(shù),更好地捕捉語(yǔ)料間的內部關(guān)系,使用聚類(lèi)分層次對本體各模塊進(jìn)行構建,輔以人工干預,能夠快速、準確的完成初步本體構建。下圖為半自動(dòng)化本體構建示意圖:
利用Protégé本體構建工具[2],可以進(jìn)行本體概念類(lèi)、關(guān)系、屬性和實(shí)例的構建,下圖為本體構建可視化示例圖:Protégé可以導出不同類(lèi)型的Schema配置文件,其中owl.xml結構配置文件如下圖所示。該配置文件可直接在MySQL、JanusGraph中加載使用,實(shí)現自動(dòng)化的創(chuàng )建Schema。
知識獲取
知識圖譜的數據來(lái)源通常包括三類(lèi)數據結構,分別為結構化數據、半結構化數據、非結構化數據。面向不同類(lèi)型的數據源,知識抽取涉及的關(guān)鍵技術(shù)和需要解決的技術(shù)難點(diǎn)有所不同。結構化知識轉模結構化數據是圖譜最直接的知識來(lái)源,基本通過(guò)初步轉換就可以使用,相較其他類(lèi)型數據成本最低,所以圖譜數據一般優(yōu)先考慮結構化數據。結構化數據可能涉及多個(gè)數據庫來(lái)源,通常需要使用ETL方法轉模,ETL即Extract(抽?。?、Transform(轉換)、Load(裝載)。通過(guò)ETL流程可將不同源數據落到中間表,從而方便后續的知識入庫。下圖為車(chē)系實(shí)體屬性、關(guān)系表示例圖:車(chē)系與品牌關(guān)系表:
非結構化知識抽取——三元組抽取除了結構化數據,非結構化數據中也存在著(zhù)海量的知識(三元組)信息。一般來(lái)說(shuō),企業(yè)的非結構化數據量要遠大于結構化數據,挖掘非結構化知識能夠極大拓展和豐富知識圖譜。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
數字通信相關(guān)文章:數字通信原理