除了知識圖譜,圖還能做什么?
提到圖,大家可能不怎么了解,但是提到知識圖譜(knowledge graph),絕對是當前的熱門(mén)話(huà)題。近年來(lái),各個(gè)行業(yè)涌現出大量的垂直應用及服務(wù)提供商,各個(gè)企業(yè),從技術(shù)到業(yè)務(wù)的各個(gè)條線(xiàn),紛紛學(xué)習知識圖譜的概念、技術(shù)、建設方法。知識圖譜,是對現實(shí)世界的抽象,通過(guò)點(diǎn)和邊描述實(shí)體之間的關(guān)系,構成一個(gè)大型的語(yǔ)義網(wǎng)絡(luò ),提供一種從關(guān)系的視角來(lái)觀(guān)察世界的方法。但究其本質(zhì),知識圖譜其實(shí)只是圖的其中一種應用。那除了知識圖譜,圖還能做什么呢?
本文引用地址:http://dyxdggzs.com/article/202007/415206.htm一、圖直觀(guān)體現了實(shí)體之間的聯(lián)系
提到一個(gè)新的東西,首先要知道它是什么。相信之前對圖有了解的小伙伴,一下子就能說(shuō)出圖的概念:圖(graph)是由一組或多組點(diǎn)以及點(diǎn)和點(diǎn)之間的關(guān)系(也被稱(chēng)為邊)組成的。比如知識圖譜,實(shí)際上是把知識提取出來(lái)做連接,如果僅僅是把數據連接起來(lái),那可能只是一個(gè)數據圖譜。但是在我們與客戶(hù)實(shí)際交流的過(guò)程中發(fā)現,只知道圖的概念,是沒(méi)辦法真正切換到圖的思維方式的,而圖的思維方式,對于重新思考業(yè)務(wù),有著(zhù)非常大的價(jià)值。
什么是圖的思維方式呢?讓我舉個(gè)例子,這個(gè)場(chǎng)景大家一定不會(huì )陌生。白板是公司里最常使用的工具之一。當遇到一個(gè)問(wèn)題需要群策群力的時(shí)候,我們會(huì )召集一些小伙伴,到一個(gè)會(huì )議室里進(jìn)行頭腦風(fēng)暴。首先,拋出幾個(gè)議題,大家發(fā)散思維,將想到的東西盡可能多的寫(xiě)在白板上。然后,將這些信息進(jìn)行分類(lèi)、排序,或者繪制一些流程。當苦苦思索,陷入僵局的時(shí)候,我們會(huì )緊盯著(zhù)白板上的信息,飛快地運轉自己的大腦,期望能想出一些新的點(diǎn)子。忽然,靈光一現,可能是白板上的某些東西和自己腦中的信息產(chǎn)生了碰撞,也可能是白板上某些信息之間,貌似有一些新的聯(lián)系,就這樣,一個(gè)新的點(diǎn)子產(chǎn)生了,我們可以就這個(gè)點(diǎn)子進(jìn)行新的討論,并重復這個(gè)過(guò)程。而解釋這種想法,我只需要把自己的想法寫(xiě)在白板上,并重新理清關(guān)系。
聽(tīng)起來(lái)很熟悉吧?沒(méi)錯,這其實(shí)就是我們自然的思考方式,也就是圖的思維方式。這個(gè)例子中,最重要的是聯(lián)系(connection),我們需要把每個(gè)人腦中的信息聯(lián)系起來(lái),去發(fā)現一些新的東西,同樣地,當我們向別人解釋自己的想法,用圖的方式去解釋這些信息如何聯(lián)系在一起,構成一個(gè)想法,別人也更容易接受。
在偵探電影中,我們經(jīng)??吹絺商桨寻盖榈乃行畔①N在墻上,去發(fā)現里面一些隱藏的關(guān)系,因為這很有可能是破案的關(guān)鍵。如果家里的實(shí)體書(shū)種類(lèi)繁多,散落在各處,我們在思考的時(shí)候,很有可能偶然看到某本書(shū),想到了其中的某些內容,把它們和思考的內容結合起來(lái)產(chǎn)生一些新的想法??鐚W(xué)科思維,其實(shí)也是將一些可能看起來(lái)毫不相干的內容聯(lián)系起來(lái),產(chǎn)生新的想法或者解決方案。
二、圖思維其實(shí)就是發(fā)現聯(lián)系的過(guò)程
所以圖思維,核心是聯(lián)系(connection),當我們思考的重點(diǎn)在于事物之間如何聯(lián)系,或者期望通過(guò)聯(lián)系事物去產(chǎn)生一些新的思考的時(shí)候,其實(shí)已經(jīng)運用了圖思維。
而意識到這是一種圖思維,會(huì )有什么樣的意義呢?還是舉個(gè)例子,這其實(shí)會(huì )讓我們多一種解決問(wèn)題的方式。
這是斯坦福大學(xué)《數理邏輯與人工智能》中的一個(gè)問(wèn)題。
看到這個(gè)問(wèn)題的第一反應,你可能會(huì )想著(zhù)用純邏輯推理的方式來(lái)解決這個(gè)問(wèn)題。但是如果用圖的思維方式,我們將解決問(wèn)題的重點(diǎn)放到了情況之間的聯(lián)系上。我們可以先構造一個(gè)認知圖(Epistemic graph),列出所有的8種可能情況,通過(guò)不確定邊來(lái)連接可能情況,去看每個(gè)人的認知和可能情況之間的聯(lián)系,然后根據條件結合每個(gè)結點(diǎn)的鄰邊,不斷縮小圖中的結點(diǎn)的范圍,最后推理出結論。這種方式會(huì )讓這個(gè)問(wèn)題變得更加簡(jiǎn)單。
圖是一個(gè)高度抽象的模型,數據中的各種關(guān)系都能用圖表示。圖中的點(diǎn)和邊,可以非常靈活,不局限于現實(shí)意義的實(shí)體。最直接能想到的當然是某個(gè)人可以是點(diǎn),某個(gè)產(chǎn)品可以是點(diǎn),它們之間的聯(lián)系是邊;路口是點(diǎn),路口與路口連接的XX路是邊。但你完全可以把某個(gè)產(chǎn)品的某個(gè)特性抽象成點(diǎn),比如顏色、重量;XX路抽象成點(diǎn),路口也抽象成點(diǎn),XX路和YY路的連接是邊。甚至再擴展到一些虛擬的實(shí)體,比如可能的情況是點(diǎn),某筆交易是點(diǎn),某個(gè)訂單是點(diǎn)。甚至到某些分子是點(diǎn),分子之間的連接是邊(沒(méi)錯,圖是可以用在化學(xué)/生物等學(xué)科上的)。圖由你自由定義,可以連接人,連接物,連接知識,連接數據,連接規則,連接過(guò)程,連接抽象的和實(shí)際的實(shí)體。
三、圖在企業(yè)中的實(shí)際應用和價(jià)值
圖能給企業(yè)帶來(lái)什么價(jià)值呢?上述的兩個(gè)例子可能已經(jīng)給了你一些啟發(fā)。圖非常擅長(cháng)通過(guò)聯(lián)系發(fā)掘數據中隱藏的價(jià)值。在國外,其實(shí)已經(jīng)有非常多行業(yè)的客戶(hù)在用圖做實(shí)際應用,囊括了金融、電信、電商、能源、醫療、供應鏈、制造、政府等各個(gè)行業(yè)。圖本身并不是一個(gè)垂直行業(yè)的技術(shù),而是通用的技術(shù)。
在金融行業(yè),圖可以進(jìn)行申請反欺詐、反盜刷、信用卡追逃、洗錢(qián)團伙發(fā)現,事前事中發(fā)現潛藏風(fēng)險,事后降低損失;在電信行業(yè),圖可以和機器學(xué)習結合,幫助客戶(hù)進(jìn)行電信反欺詐,實(shí)時(shí)識別出欺詐電話(huà)、廣告電話(huà)、騷擾電話(huà)、正常電話(huà),并及時(shí)報送公安部門(mén);在電商行業(yè),圖可以構建用戶(hù)360畫(huà)像,幫助客戶(hù)進(jìn)行實(shí)時(shí)個(gè)性化產(chǎn)品推薦;在能源行業(yè),可以構建電網(wǎng)一張圖,進(jìn)行潮流分析,實(shí)現超實(shí)時(shí)計算;在醫療行業(yè),圖可以對用戶(hù)進(jìn)行實(shí)時(shí)護理路徑推薦;在供應鏈行業(yè),客戶(hù)可以通過(guò)圖及時(shí)了解某項因素發(fā)生變化時(shí),對上下游及總體成本的影響,發(fā)現產(chǎn)品延誤、裝運狀態(tài)及其他質(zhì)量控制和風(fēng)險問(wèn)題;在制造行業(yè),圖可以找到復雜生產(chǎn)工藝的最佳路徑;在政府行業(yè),圖可以改進(jìn)社會(huì )福利服務(wù)管理。在通用行業(yè),圖可以進(jìn)行數據治理中的數據血緣分析、實(shí)體解析,網(wǎng)絡(luò )&IT資源優(yōu)化,為機器學(xué)習提供圖特征。
國內的應用場(chǎng)景主要集中在金融行業(yè)。當然,圖用來(lái)做反欺詐、反洗錢(qián)等,是非常適合的,這些也是很成熟的應用。其他行業(yè)為什么沒(méi)有對圖進(jìn)行大規模的應用呢?其實(shí)是因為,對圖有了解的人,基本集中在學(xué)術(shù)和計算機領(lǐng)域。而想要將圖的價(jià)值發(fā)揮出來(lái),需要業(yè)務(wù)人員的參與和思考,因為業(yè)務(wù)人員是最懂業(yè)務(wù)的。 理解和使用圖的思維方式,是應用圖解決實(shí)際問(wèn)題的第一步。
四、應用圖分析的條件和工具
我們通常把這種用圖去分析問(wèn)題的方式叫做圖分析(Graph Analysis)。我們認為,如果想要應用圖分析給企業(yè)帶來(lái)真正的價(jià)值,需要圖的思維方式(產(chǎn)生需求&問(wèn)題)+企業(yè)數據(解決問(wèn)題的數據基礎)+解決方案(解決問(wèn)題的方法)+工具(選擇合適的工具解決問(wèn)題)。
圖的思維方式
由于歷史原因(有興趣的小伙伴可以了解一下數據庫的歷史,導航數據庫-關(guān)系型數據庫-nosql數據庫-圖數據庫),當我們思考業(yè)務(wù)和數據結合的時(shí)候,往往會(huì )考慮技術(shù)的限制,應用關(guān)系型數據庫的方式,也就是用表的思路來(lái)思考,這會(huì )極大的限制我們的思路。而現在有了新的工具——圖數據庫,可以將我們的想法更直接的與工具結合,不需要再將最初的想法打碎成一個(gè)個(gè)表格,再通過(guò)表格來(lái)表示實(shí)際業(yè)務(wù)。
舉一個(gè)企業(yè)反薅羊毛的實(shí)際場(chǎng)景,薅羊毛是指商家或金融機構為了拉新會(huì )舉辦一些推廣活動(dòng),比如每邀請一個(gè)新用戶(hù)注冊,可以獲得一定的積分獎勵,這些積分可以?xún)稉Q現金、優(yōu)惠券或者獎品?;顒?dòng)上線(xiàn)會(huì )吸引黑產(chǎn)團伙,這給推廣方造成了大量的資金浪費。薅羊毛和反薅羊毛成為了黑產(chǎn)團伙和推廣方之間的博弈。
針對這種推廣活動(dòng),關(guān)系型數據庫里最簡(jiǎn)單的存儲方式是分為邀請注冊表和積分兌換表兩張表,通過(guò)統計的方式去識別黑產(chǎn)團伙,比如每個(gè)獨立設備登陸的賬戶(hù)數,每個(gè)IP上登陸的賬戶(hù)數等等。然而黑產(chǎn)團伙可以通過(guò)群控設備,虛擬IP等等技術(shù)來(lái)繞開(kāi)這些檢測。
但如果轉換成圖的思維方式,著(zhù)重從關(guān)系的角度去分析,會(huì )發(fā)現一些非常有趣的模式。用戶(hù)邀請注冊的這些新用戶(hù),他們既沒(méi)有產(chǎn)生新的交易,也沒(méi)有邀請新的人,甚至還按時(shí)間形成非常有序的排列,這毫無(wú)疑問(wèn)也是薅羊毛的一種模式,單純通過(guò)統計很難發(fā)現。
所以第一步,需要 業(yè)務(wù)人員 切換到圖的思維來(lái)重新思考業(yè)務(wù), 找到那些以前解決困難或者解決不了的復雜業(yè)務(wù)問(wèn)題,嘗試用圖的思維方式來(lái)解決,甚至找到一些新的業(yè)務(wù)價(jià)值點(diǎn)。
企業(yè)數據
我們的想法往往需要通過(guò)數據分析來(lái)驗證或者落地。當我們的數據量巨大,且類(lèi)型復雜的時(shí)候,單純的統計分析已經(jīng)沒(méi)辦法滿(mǎn)足我們的需求了。業(yè)務(wù)人員在進(jìn)行探索式分析時(shí),需要多維度思考,落地到關(guān)系型數據庫里,就體現為多表關(guān)聯(lián),在數據量巨大的時(shí)候,這對關(guān)系型數據庫是個(gè)災難。而采用數據倉庫和大寬表的方案也不盡如人意。本質(zhì)上是因為,這些技術(shù)的重點(diǎn)并不是在數據之間的關(guān)系上。應用圖分析平臺,業(yè)務(wù)人員和數據分析人員,都可以從數據的角度出發(fā),去做一些探索,找到一些隱藏的聯(lián)系。嘗試從關(guān)系的角度,發(fā)掘出新的價(jià)值。
解決方案
當有了想要解決的問(wèn)題和解決問(wèn)題的數據基礎,還需要解決問(wèn)題的方法。我們可以把行業(yè)經(jīng)驗和圖算法結合起來(lái)??梢詮暮?jiǎn)單的關(guān)系查詢(xún)開(kāi)始,比如看新進(jìn)客戶(hù)是否和一個(gè)已有黑點(diǎn)連接,基于已有的規則做更深度的探索,通過(guò)子圖判斷兩個(gè)客戶(hù)是否相似。同時(shí),還可以利用一些圖算法做輔助,比如我們想要發(fā)現一些隱藏的洗錢(qián)團伙,欺詐團伙,可以用圖中衡量群體度的算法——魯汶算法(Louvain Modularity);我們想要找到所有客戶(hù)中最有影響力的人(KOL),可以用圖中衡量中心度的算法——頁(yè)面排名算法(PageRank)。當找到一些模式后,可以通過(guò)圖上的模式匹配找到所有的相似客戶(hù),并通過(guò)一些目標值做反復的驗證和迭代。 業(yè)務(wù)人員、數據分析人員、IT人員 都可以參與到其中,包括一些經(jīng)驗豐富的解決方案提供商,都是我們有力的幫手。
工具
從業(yè)務(wù)的探索到最后的落地應用,需要一個(gè)安全易用、穩定可靠的工具支持。更重要的是,要選擇合適的工具。
首先,如何使用圖,是純粹的做圖的可視化?還是做圖的查詢(xún)計算?還是做圖的數據和業(yè)務(wù)探索?
其次,是否傳統的關(guān)系型數據庫就能解決這個(gè)問(wèn)題,或者圖數據庫才能解決這個(gè)問(wèn)題,還是需要多種工具結合使用。
最后,關(guān)于工具本身的功能。業(yè)務(wù)人員可能更加關(guān)注探索與交互的易用性;開(kāi)發(fā)人員可能更加關(guān)注開(kāi)發(fā)的便捷性,語(yǔ)言是否強大;運維人員可能更加關(guān)注系統管理、資源監控。不同的角色有不同的關(guān)注點(diǎn),這都是工具需要解決的問(wèn)題。
看完上述四個(gè)步驟,你肯定會(huì )有很多問(wèn)題,比如,怎么從數據的角度在圖中做探索呢?有沒(méi)有什么已經(jīng)落地的,圖的解決方案?關(guān)于企業(yè)不同角色對于工具的關(guān)注點(diǎn),TigerGraph能夠滿(mǎn)足嗎?由于篇幅有限,這些問(wèn)題,我們會(huì )在后續的內容中一一解答。
總結一下,除了知識圖譜,圖還能做什么呢?
評論