<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 一文 Get 汽車(chē)知識的語(yǔ)義網(wǎng)絡(luò )及圖譜構建(2)

一文 Get 汽車(chē)知識的語(yǔ)義網(wǎng)絡(luò )及圖譜構建(2)

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2022-10-19 來(lái)源:工程師 發(fā)布文章
三元組抽取算法的挑戰

問(wèn)題1:?jiǎn)蝹€(gè)領(lǐng)域內,?檔內容和格式多樣,需要?量的標注數據,成本?。問(wèn)題2:領(lǐng)域之間遷移的效果不夠好,跨領(lǐng)域的可規?;卣沟拇鷥r(jià)?。關(guān)鍵點(diǎn):模型基本都是針對特定?業(yè)特定場(chǎng)景,換?個(gè)場(chǎng)景,效果會(huì )出現明顯下降。解決思路:Pre-train + Finetune的范式。預訓練:重量級底座讓模型“?多識?”,充分利??規模多?業(yè)的?標?檔,訓練?個(gè)統?的預訓練底座,增強模型對各類(lèi)?檔的表示和理解能?;微調:輕量級?檔結構化算法。在預訓練基礎上,構建輕量級的?向?檔結構化的算法,降低標注成本。基于??本的預訓練?法,大多都沒(méi)有考慮?檔特性,如空間(Spartial)、視覺(jué)(Visual)等信息。并且基于?本設計的PretrainTask,整體是針對純?本進(jìn)?的設計,?沒(méi)有針對?檔的邏輯結構設計。針對該問(wèn)題這里介紹一種??檔預訓練模型DocBert[3],DocBert模型設計。使??規模(百萬(wàn)級)?標注?檔數據進(jìn)?預訓練,基于?檔的?本語(yǔ)義(Text)、版?信息(Layout)、視覺(jué)特征(Visual)構建?監督學(xué)習任務(wù),使模型更好地理解?檔語(yǔ)義和結構信息。Layout-Aware MLM:在Mask語(yǔ)?模型中考慮?本的位置、字體??信息,實(shí)現?檔布局感知的語(yǔ)義理解。Text-Image Alignment:融合?檔視覺(jué)特征,重建圖像中被Mask的?字,幫助模型學(xué)習?本、版?、圖像不同模態(tài)間的對?關(guān)系。Title Permutation:以?監督的?式構建標題重建任務(wù),增強模型對?檔邏輯結構的理解能?。Sparse Transformer Layers:?Sparse Attention的?法,增強模型對??檔的處理能力(見(jiàn)下圖)。圖片挖掘概念,興趣詞標簽,關(guān)聯(lián)到車(chē)系、實(shí)體除了結構化和非結構化文本中獲取三元組,我們還挖掘物料所包含的分類(lèi)、概念標簽和興趣關(guān)鍵詞標簽,并建立物料和車(chē)實(shí)體之間的關(guān)聯(lián),為汽車(chē)知識圖譜帶來(lái)新的知識。下面從分類(lèi)、概念標簽、興趣詞標簽來(lái)介紹汽車(chē)之家所做的內容理解部分工作以及思考。分類(lèi)體系作為內容刻畫(huà)的基礎,對物料進(jìn)行粗粒度的劃分?;谌斯ざx的方式建立統一的內容體系,通過(guò)AI模型進(jìn)行進(jìn)一步劃分。在分類(lèi)方法上,我們采用了主動(dòng)學(xué)習的方式,對比較難分的數據進(jìn)行標注,同時(shí)采用數據增強、對抗訓練,以及關(guān)鍵詞融合等方法提高分類(lèi)的效果,分類(lèi)算法流程見(jiàn)下圖。圖片概念標簽粒度介于分類(lèi)和興趣詞標簽之間,比分類(lèi)粒度更細,同時(shí)比興趣詞對于興趣點(diǎn)刻畫(huà)更加完整。我們建立了車(chē)視野、人視野、內容視野三個(gè)維度,豐富了標簽維度,細化了標簽粒度。豐富且具體的物料標簽,更加方便搜索推薦基于標簽的模型優(yōu)化,且可用于標簽外展起到吸引用戶(hù)及二次引流等作用。概念標簽的挖掘,結合在query等重要數據上采用機器挖掘的方式,對概括性進(jìn)行分析,通過(guò)人工review,拿到概念標簽集合,采用多標簽模型分類(lèi)。

興趣詞標簽是最細粒度的標簽,映射為用戶(hù)興趣,根據不同用戶(hù)興趣偏好可以更好的進(jìn)行個(gè)性化推薦。關(guān)鍵詞的挖掘采用多種興趣詞挖掘相結合的方式,包括Keybert提取關(guān)鍵子串,并結合TextRank、PositionRank、singlerank、TopicRank、MultipartiteRank等句法分析多種方法,產(chǎn)生興趣詞候選。最后,通過(guò)聚類(lèi)+人工的方式生成最終版高質(zhì)量興趣標簽。

圖片

對于不同粒度的標簽還是在物料層面,我們需要把標簽和車(chē)建立起關(guān)聯(lián)。首先,我們分別計算出標題\文章的所屬標簽,然后識別出標題\文章內的實(shí)體,得到若干標簽—實(shí)體偽標簽,最后根據大量語(yǔ)料,共現概率高的標簽就會(huì )標記為該實(shí)體的標簽。通過(guò)以上三個(gè)任務(wù),我們獲得了豐富且海量的標簽。對車(chē)系、實(shí)體關(guān)聯(lián)上這些標簽,會(huì )極大豐富我們的汽車(chē)圖譜,建立了媒體和用戶(hù)的關(guān)注車(chē)標簽。人效提升為了實(shí)現更好的模型效果,獲得更大規模的訓練樣本,解決標注成本高和標注周期長(cháng)成為亟待解決的問(wèn)題。首先,我們使用半監督學(xué)習,利用海量未標注數據進(jìn)行預訓練。之后采用主動(dòng)學(xué)習方式,最大化標注數據的價(jià)值,迭代選擇高信息量樣本進(jìn)行標注。最后利用遠程監督,發(fā)揮已有知識的價(jià)值,發(fā)覺(jué)任務(wù)之間的相關(guān)性。知識入庫知識圖譜中的知識是通過(guò)RDF結構來(lái)進(jìn)行表示的,其基本單元是事實(shí)。每個(gè)事實(shí)是一個(gè)三元組(S, P, O),在實(shí)際系統中,按照存儲方式的不同,知識圖譜的存儲可以分為基于RDF表結構的存儲和基于屬性圖結構的存儲。圖庫更多是采用屬性圖結構的存儲,常見(jiàn)的存儲系統有Neo4j、JanusGraph、OritentDB、InfoGrid等。圖數據庫選擇通過(guò) JanusGraph[4] 與 Neo4J、ArangoDB、OrientDB 這幾種主流圖數據庫的對比,我們最終選擇JanusGraph 作為項目的圖數據庫,之所以選擇 JanusGraph,主要有以下原因:

  • 基于 Apache 2 許可協(xié)議開(kāi)放源碼,開(kāi)放性好;

  • 支持使用 Hadoop 框架進(jìn)行全局圖分析和批量圖處理;

  • 支持很大的并發(fā)事務(wù)處理和圖操作處理。通過(guò)添加機器橫向擴展 JanusGraph 的事務(wù) 處理能力,可以完成毫秒級別相應和大圖的復雜查詢(xún);

  • 原生支持 Apache TinkerPop 描述的當前流行的屬性圖數據模型;

  • 原生支持圖遍歷語(yǔ)言 Gremlin。

下圖是主流圖數據庫對比。圖片JanusGraph數據存儲模型了解Janusgraph存儲數據的方式,有助于我們更好的利用該圖庫。JanusGraph 以鄰接列表格式存儲圖形,這意味著(zhù)圖形存儲為頂點(diǎn)及其鄰接列表的集合。頂點(diǎn)的鄰接列表包含頂點(diǎn)的所有入射邊(和屬性)。圖片
JanusGraph 將每個(gè)鄰接列表作為一行存儲在底層存儲后端中。(64 位)頂點(diǎn) ID(JanusGraph 唯一分配給每個(gè)頂點(diǎn))是指向包含頂點(diǎn)鄰接列表的行的鍵。每個(gè)邊和屬性都存儲為行中的一個(gè)單獨的單元格,允許有效的插入和刪除。因此,特定存儲后端中每行允許的最大單元數也是 JanusGraph 可以針對該后端支持的頂點(diǎn)的最大度數。如果存儲后端支持 key-order,則鄰接表將按頂點(diǎn) id 排序,JanusGraph 可以分配頂點(diǎn) id,以便對圖進(jìn)行有效分區。分配 id 使得經(jīng)常共同訪(fǎng)問(wèn)的頂點(diǎn)具有絕對差異小的 id。
圖片知識圖譜在推薦中的應用汽車(chē)領(lǐng)域擁有專(zhuān)業(yè)參數劃分和多領(lǐng)域技術(shù),同時(shí)延伸到社會(huì )、科技、娛樂(lè )等多個(gè)方面,知識圖譜在汽車(chē)推薦中提供了內容之外豐富的知識信息,在推薦中起到了十分重要的作用,在汽車(chē)的看、買(mǎi)、用等不同場(chǎng)景都能帶來(lái)明顯的效果提升。在看車(chē)場(chǎng)景中,低頻用戶(hù)對應的點(diǎn)擊行為少,可能導致內容推薦效果差等問(wèn)題,此時(shí)可通過(guò)圖譜引入額外信息(相似用戶(hù)群組、車(chē)系屬性標簽等),使用跨域知識增強改善數據稀疏性問(wèn)題。在買(mǎi)車(chē)場(chǎng)景中,通過(guò)顯式的知識展示、路徑召回,以及解釋理由生成,直觀(guān)地告訴用戶(hù)推薦他某款車(chē)的理由,以及召回對應的汽車(chē)類(lèi)資訊。在用車(chē)場(chǎng)景中,通過(guò)用戶(hù)的看車(chē)及購買(mǎi)行為,從汽車(chē)保養、維修、用車(chē)成本等方面有效提升用戶(hù)的用車(chē)體驗。本章基于汽車(chē)的不同應用場(chǎng)景,從KG在推薦系統中冷啟、理由、排序等方面,介紹推薦可用的相關(guān)技術(shù),為圖譜及下游應用的實(shí)踐提供了思路。知識圖譜在推薦冷啟動(dòng)中的應用知識圖譜能夠從user-item交互中建模KG中隱藏的高階關(guān)系,很好地解決了因用戶(hù)調用有限數量的行為而導致的數據稀疏性,進(jìn)而可以應用在解決冷啟動(dòng)的問(wèn)題上。Sang 等[5]提出了一種雙通道神經(jīng)交互的方法,稱(chēng)為知識圖增強的殘差遞歸神經(jīng)協(xié)同過(guò)濾(KGNCF-RRN),該方法利用KG上下文的長(cháng)期關(guān)系依賴(lài)性和用戶(hù)項交互進(jìn)行推薦。Du Y等[6]提出了一種新的基于元學(xué)習框架的冷啟問(wèn)題解決方案MetaKG,包括collaborative-aware meta learner和knowledge-aware meta learner,捕捉用戶(hù)的偏好和實(shí)體冷啟動(dòng)知識。在兩個(gè)learner的指導下,MetaKG可以有效地捕捉到高階的協(xié)作關(guān)系和語(yǔ)義表示,輕松適應冷啟動(dòng)場(chǎng)景。此外,作者還設計了一種自適應任務(wù),可以自適應地選擇KG信息進(jìn)行學(xué)習,以防止模型被噪聲信息干擾,MetaKG架構如下圖所示。圖片知識圖譜在推薦理由生成中的應用推薦理由能提高推薦系統的可解釋性,讓用戶(hù)理解生成推薦結果的計算過(guò)程,同時(shí)也可以解釋item受歡迎的原因。例如,我們在推薦一篇新車(chē)導購的文章時(shí), 使用“粉色系的歐拉外觀(guān)非常好看,落地才十萬(wàn),你要不要看看?”,或者是“粉色的特斯拉很適合小姐姐開(kāi),真是又美又颯!”,這樣類(lèi)似朋友間的敘述,會(huì )有效提升用戶(hù)的閱讀體驗。早期的可解釋推薦主要以模板為主,模板好處是保證高可讀性和準確率,但需要人工整理,且泛化性不高,給人一種重復的感覺(jué)。后來(lái)發(fā)展成不需要預設的free-form形式。在知識圖譜上,以其中一條高分路徑作為解釋向用戶(hù)展示。對應的基于user-item知識圖譜的路徑推理建模方法有多種,例如具有代表性的KPRN[7]和ECR[8]等,該類(lèi)模型主要思想是通過(guò)用戶(hù)的歷史行為,尋找一條item評分最高的最優(yōu)路徑。例如下圖,通過(guò)用戶(hù)的“居住地”和“偏好”,可以得到更為形象的汽車(chē)推薦理由:“同在長(cháng)沙,和你一樣喜歡小螞蟻的李先生點(diǎn)贊了這篇文章”。圖片知識圖譜在推薦排序中的應用KG可以通過(guò)給item用不同的屬性進(jìn)行鏈接,建立user-item之間的interaction,將uesr-item graph和KG結合成一張大圖,可以捕獲item之間的高階聯(lián)系。傳統的推薦方法是將問(wèn)題建模為一個(gè)監督學(xué)習任務(wù),這種方式會(huì )忽略item之間的內在聯(lián)系(例如凱美瑞和雅閣的競品關(guān)系),并且無(wú)法從user行為中獲取協(xié)同信號。下面介紹兩篇KG應用在推薦排序的論文。Wang[9]等人設計了KGAT算法(見(jiàn)下圖),首先利用GNN迭代對embedding進(jìn)行傳播、更新,從而能夠快速捕捉高階聯(lián)系。其次,在aggregation時(shí)使用attention機制,傳播過(guò)程中學(xué)習到每個(gè)neighbor的weight,反應高階聯(lián)系的重要程度。最后,通過(guò)N階傳播更新得到user-item的N個(gè)隱式表示,不同layer表示不同階數的連接信息。KGAT可以捕捉更豐富、不特定的高階聯(lián)系。圖片Zhang[10]等人提出RippleNet模型(見(jiàn)下圖),其關(guān)鍵思想是興趣傳播:RippleNet將用戶(hù)的歷史興趣作為KG中的種子集合(seed set),然后沿著(zhù)KG的連接向外擴展用戶(hù)興趣,形成用戶(hù)在KG上的興趣分布。RippleNet最大的優(yōu)勢在于它可以自動(dòng)地挖掘從用戶(hù)歷史點(diǎn)擊過(guò)的物品到候選物品的可能路徑,不需要任何人工設計元路徑或元圖。圖片
圖片總結綜上,我們主要圍繞推薦介紹了圖譜構建詳細流程,對其中的困難和挑戰做出了分析。同時(shí)也綜述了很多重要的工作,以及給出了具體的解決方案,思路以及建議。最后介紹了知識圖譜的應用,特別是推薦領(lǐng)域中冷起、可解釋性、召回排序等方面,介紹了知識圖譜的作用與使用。(注:文中數據來(lái)源為汽車(chē)之家網(wǎng)站)引用[1] Kim S,Oh S G.Extracting and Applying Evaluation Criteria for Ontology Quality Assessment[J].Library Hi Tech,2019.[2] Protege: https://protegewiki.stanford.edu[3] DocBert,[1] Adhikari A ,  Ram A ,  Tang R , et al. DocBERT: BERT for Document Classification[J].  2019.[4] JanusGraph,https://docs.janusgraph.org/[5] Sang L, Xu M, Qian S, et al. Knowledge graph enhanced neural collaborative filtering with residual recurrent network[J]. Neurocomputing, 2021, 454: 417-429.[6] Du Y ,  Zhu X ,  Chen L , et al. MetaKG: Meta-learning on Knowledge Graph for Cold-start Recommendation[J]. arXiv e-prints, 2022.[7] X.Wang, D.Wang, C. Xu, X. He, Y. Cao, and T. Chua, “Explainable reasoning over knowledge graphs for recommendation,” in AAAI, 2019, pp. 5329–5336[8] Chen Z ,  Wang X ,  Xie X , et al. Towards Explainable Conversational Recommendation[C]// Twenty-Ninth International Joint Conference on Artificial Intelligence and Seventeenth Pacific Rim International Conference on Artificial Intelligence {IJCAI-PRICAI-20. 2020.[9] Wang X ,  He X ,  Cao Y , et al. KGAT: Knowledge Graph Attention Network for Recommendation[J]. ACM, 2019.[10] Wang H ,  Zhang F ,  Wang J , et al. RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems[J]. ACM, 2018.


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。

攝像頭相關(guān)文章:攝像頭原理


關(guān)鍵詞: 汽車(chē)電子

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>