AI-Native數據庫正在打造新一代金融基礎設施
阿拉?。ˋladdin)系統的繁榮,印證著(zhù)科技改變了華爾街的證券規則。
王樑,數據庫領(lǐng)域資深專(zhuān)家。從事IT行業(yè)18年,曾擔任北京電信數據中心運維經(jīng)理,中科軟科技股份有限公司項目經(jīng)理;參與國家減災中心數據中心、某省公安廳數據中心等項目的規劃及建設工作。該系統將復雜的風(fēng)險分析與綜合投資組合交易整合在一個(gè)平臺上,可以達成每天監測2000+風(fēng)險因素,每周進(jìn)行5000次投資組合壓力測試和1.8億次期權調整計算,為逾100個(gè)國家/地區的機構提供服務(wù),全球依賴(lài)這一平臺運作的資金規模超過(guò)15萬(wàn)億美元。同樣,在全球智能投顧領(lǐng)域,Wealthfront是一個(gè)令無(wú)數金融機構難以望其項背的名字。其客戶(hù)就職最多的企業(yè)依次是Google、Facebook、LinkedIn、Microsoft、Twitter等。與“人機混合”模式的智能投顧不同,Wealthfront身體力行地將金融民主化的理想變成現實(shí),始終站在客戶(hù)的角度,最大化客戶(hù)利益。
讓每個(gè)人都能實(shí)時(shí)看到同樣高質(zhì)量的數據,源于金融信息化從面向流程驅動(dòng)轉向面向數據化驅動(dòng),才能實(shí)時(shí)進(jìn)行前端的個(gè)性化處置。本質(zhì)是金融業(yè)務(wù)底層的基礎設施發(fā)生了變遷。
DT對IT的斷崖式洗牌
金融業(yè)務(wù)底層基礎設施發(fā)生的變遷,源于DT對IT的斷崖式洗牌。首先,算法上摩爾定律失效,不再依靠單個(gè)算法性能優(yōu)化提升,而是通過(guò)大規模分布式,以及大規模協(xié)同算力來(lái)提示算法的效率和性能;其次,互聯(lián)網(wǎng)帶來(lái)數據實(shí)時(shí)消費需求,行為生產(chǎn)的數據被即席處理消費,個(gè)人點(diǎn)擊流的行為被用作個(gè)性化商品推薦,爆發(fā)第三波行為數據紅利;最后,算法重構世界,在今天的數字經(jīng)濟中,很多基于經(jīng)驗規則流程的商業(yè)實(shí)踐,甚至一些物理的公理定理,都開(kāi)始讓位于數據和算法所訓練生成的新的知識。這是兩個(gè)賽道的技術(shù),原來(lái)的流程驅動(dòng)的業(yè)務(wù)Java代碼可復用,形成IT時(shí)代的信息化系統,而數據驅動(dòng)的業(yè)務(wù)是輸入、輸出一體化,將數據、程序和商業(yè)結果一起輸入,通過(guò)智能化系統來(lái)生產(chǎn)出程序,形成DT時(shí)代的智能化服務(wù)應用。面向資源服務(wù)的虛擬化被面向服務(wù)的容器化替代,面向數據可視化、面向分析的BI操作被面向執行的AI所替代。以****為例,如今****開(kāi)始互聯(lián)網(wǎng)的消費化,越來(lái)越強調體驗的實(shí)時(shí)性,交易和分析場(chǎng)景必須一致。傳統的解決方案,一般都是采用數據倉庫T+1匯聚交易數據,進(jìn)行復雜分析,形成分析結果。分析結果如果需要支持高并發(fā)服務(wù)應用,就要導入一個(gè)關(guān)系型數據庫,支持高并發(fā)應用服務(wù)。在這個(gè)傳統解決方案中,數據需要從業(yè)務(wù)系統遷移到數據倉庫中,分析結果還需要從數據倉庫再遷移到關(guān)系型數據庫中,支持高并發(fā)數據服務(wù),因此數據需要在這三個(gè)數據庫之間進(jìn)行傳輸,這種數據傳輸產(chǎn)生數據量大、延遲高、數據冗余等問(wèn)題。要是在分析任務(wù)有所變更的情況下,代價(jià)會(huì )更大。當今業(yè)務(wù)日趨爭分奪秒,都期待可以突破T+1日的桎梏,走向更加實(shí)時(shí)的響應。互聯(lián)網(wǎng)興起后,應用程序需要每秒支持數十萬(wàn)甚至數百萬(wàn)個(gè)事務(wù),每個(gè)事務(wù)的處理延遲以毫秒為單位?;ヂ?lián)網(wǎng)帶來(lái)的行為數據要遠遠大于交易數據,而且需要高并發(fā)、高擴展、更松耦合的高服務(wù)架構能力來(lái)完成。舉個(gè)例子:****營(yíng)業(yè)廳的個(gè)性化理財服務(wù)推銷(xiāo),就需要大量數據倉庫中的加工分析結果數據,直接推送到一線(xiàn)營(yíng)業(yè)廳的服務(wù)人員的終端上,進(jìn)行實(shí)時(shí)營(yíng)銷(xiāo)處理。我們再把場(chǎng)景聚集到一個(gè)營(yíng)業(yè)廳,假設某天營(yíng)業(yè)廳應用有六萬(wàn)多人,同時(shí)在線(xiàn)需要至少五百個(gè)并發(fā)/秒,理財經(jīng)理要在某一時(shí)刻看到大客戶(hù)的結息、凈值等一系列的數據服務(wù),且都是個(gè)性化的,這種個(gè)性化服務(wù)業(yè)務(wù)需求是傳統數據倉庫架構無(wú)法支撐的。首先,能夠統一支撐事物處理和工具負載分析的數據庫成為必須需求。我們很少看到Google宕機,因為它不是靠單集群可用性來(lái)保證,而是靠整個(gè)集群的服務(wù)來(lái)保證性能。在行為數據中誕生了新的架構,就必須生成一個(gè)新的分布式架構。近年來(lái),混布數據庫在****承載了很大使命:一方面,滿(mǎn)足海量數據強交易場(chǎng)景;另一方面,權益類(lèi)服務(wù)也和其他服務(wù)一樣,需要計時(shí)實(shí)時(shí)處理。****通過(guò)引入HTAP數據庫產(chǎn)品,實(shí)現業(yè)務(wù)交易和數據分析緊密結合,TP側支持大量交易流水存儲,提供交易相關(guān)的基礎數據;AP側滿(mǎn)足大數據量、復雜的SQL查詢(xún),并支持秒級響應,HTAP優(yōu)化的融合架構提供更高的處理時(shí)效并減少數據副本存儲量。其次,數據使用者發(fā)生變化,實(shí)時(shí)高并發(fā)處理成為常態(tài)。數據生產(chǎn)方式的變化導致數據使用者也發(fā)生變化。傳統的數據消費者是決策者,領(lǐng)導根據數據分析結果進(jìn)行宏觀(guān)決策服務(wù)。在個(gè)性化服務(wù)的時(shí)代,數據的消費者不再是少數領(lǐng)導者,還有一線(xiàn)服務(wù)人員,一線(xiàn)人員根據數據分析結果實(shí)現個(gè)性化服務(wù),這讓高并發(fā)和實(shí)時(shí)處理成為常態(tài)。如圖1所示,在某行****中心項目中,將****核心系統、信審無(wú)紙化系統、客戶(hù)決策管理系統的數據通過(guò)數據同步工具與在線(xiàn)交易系統聯(lián)通后,存入HTAP數據庫,來(lái)同時(shí)支撐簡(jiǎn)單查詢(xún)與統計分析。)
圖1 某行****中心全量數據在線(xiàn)應用最后,使用“流批一體”的方式支撐數據分析(離線(xiàn)數據、實(shí)時(shí)數據)、機器學(xué)習、圖計算等多條數據流程。在傳統解決方案中,批計算平臺和流計算平臺是兩套不同的架構體系,批計算平臺一般是大數據平臺或者是數據倉庫進(jìn)離線(xiàn)加工處理;流計算平臺一般會(huì )采用Flink的框架計算實(shí)時(shí)處理;由于是兩條系統、兩套算子、兩套UDF、兩套計算邏輯,一定會(huì )產(chǎn)生不同程度的誤差,這些誤差給業(yè)務(wù)方帶來(lái)了非常大的困擾。這些誤差不是簡(jiǎn)單依靠人力或者資源的投入就可以解決的。因此,要構建“流批一體”服務(wù)平臺,支撐實(shí)時(shí)分析、實(shí)時(shí)營(yíng)銷(xiāo)等算法模型的應用,通過(guò)混布的HTAP數據庫將面向管理的“分析”與面向應用的實(shí)時(shí)“處理”,以及面向AI的模型訓練與圖算法等通過(guò)數據庫實(shí)現融合,可以解決困擾用戶(hù)的架構難題。試想一下場(chǎng)景:授信企業(yè)將所獲貸款挪為他用,投資高風(fēng)險渠道且投資失敗,所貸款項全部虧損,不僅影響了企業(yè)的再生產(chǎn)和經(jīng)營(yíng)過(guò)程,而且影響到整個(gè)產(chǎn)業(yè)供應鏈的正常運作。不是傳統分析不能解決,而是在實(shí)際業(yè)務(wù)辦理過(guò)程中,供應鏈金融關(guān)系錯綜復雜,不是簡(jiǎn)單分析能呈現的。伴隨著(zhù)社會(huì )生活和經(jīng)濟發(fā)展模式的全面轉型,為從數據中獲取更多價(jià)值,已經(jīng)開(kāi)始需要使用圖數據庫獲取深層次的統計信息。比起傳統的信息存儲和組織模式,圖數據庫能夠很清晰地揭示復雜的模式,尤其在錯綜復雜的金融風(fēng)控業(yè)務(wù)上效果更為明顯,可謂是一圖勝過(guò)千言萬(wàn)語(yǔ)。能支持流批一體的數據庫,更善于處理大量的、復雜的、互聯(lián)的、多變的網(wǎng)狀數據,其效率遠高于傳統的關(guān)系型數據庫的百倍、千倍甚至萬(wàn)倍。如圖2所示,在實(shí)際智能權益服務(wù)平臺項目中,將用戶(hù)的行為數據、實(shí)時(shí)的交易數據以及地理數據、賬戶(hù)數據和外部數據一起通過(guò)“流批一體”匯入HTAP分布式數據庫,來(lái)支撐智能權益推薦與營(yíng)銷(xiāo)活動(dòng)策劃等實(shí)時(shí)應用。
圖2 智能權益服務(wù)平臺“流批一體”實(shí)時(shí)應用
AI-Native數據庫正在打造新一代金融基礎設施
如圖3所示,“BigIdeas 2021”提出“Deep Learning”概念,即軟件2.0時(shí)代。在軟件2.0時(shí)代,數據結構開(kāi)始基礎設施化,同時(shí)高精尖的算法學(xué)習流水線(xiàn)化。
圖3 Deep Learning Is Software 2.0
軟件工程逐步由程序員個(gè)體腦力勞動(dòng)生產(chǎn),轉向數據驅動(dòng)的算法應用自動(dòng)生產(chǎn),軟件將進(jìn)入AI規?;a(chǎn)階段。首先,人工智能做了一次表達能力的升級。我們所熟知的“Google 語(yǔ)音識別”還有“波士頓機器人運動(dòng)姿態(tài)”都說(shuō)明一個(gè)問(wèn)題:算法具有極強的跨行業(yè)屬性,人工智能可以借數學(xué)語(yǔ)言通達感官遠遠不及的世界而仍保真。巴塞爾協(xié)議對我們的啟示是:預期損失是可以量化的,即預期損失率(EL)=違約概率(PD)*違約損失率(LGD)。這需要借助科技工具,精準的對信用進(jìn)行量化,找到需求風(fēng)險和利潤間的平衡點(diǎn)。AI的強項在于可以以極低成本發(fā)現信用風(fēng)險。通過(guò)自動(dòng)化特征工程與自動(dòng)化機器學(xué)習建模,依靠海量數據和強大的分析能力,簡(jiǎn)化模型生產(chǎn)流程,提升算法性能,建立起更全面、更客觀(guān)的信用體系,是金融機構與信用風(fēng)險測評之間的紐帶。我們曾在證監會(huì )共建的金融實(shí)驗室對56000+資管產(chǎn)品做模型預測,模型預測準確率高達80%,在第一次實(shí)踐應用中找準4支兌付風(fēng)險,在第二次實(shí)踐應用中找準7支。要知道,金融機構發(fā)生的風(fēng)險所帶來(lái)的后果,往往超過(guò)對其自身的影響。因此預測風(fēng)險值的價(jià)值遠高于找準風(fēng)險,這也是人工智能產(chǎn)品的價(jià)值。通過(guò)人工智能可以預測出風(fēng)險值的高低,當風(fēng)險高達某一數值,金融機構就要采取相應措施了,預防風(fēng)險成為真正的事故。某券商資管圖譜的風(fēng)險傳播利用復雜網(wǎng)絡(luò )作為載體,對資管業(yè)務(wù)中涉及的自然人、企業(yè)和資管產(chǎn)品之間的復雜關(guān)系進(jìn)行建模,理順資金流動(dòng)方向和風(fēng)險傳遞方向,從而達到為經(jīng)營(yíng)機構預警,進(jìn)行資產(chǎn)風(fēng)險防范的目的。資管圖譜方案支持全面的觀(guān)察和****資管產(chǎn)品之間的關(guān)聯(lián)關(guān)系,并對風(fēng)險傳染過(guò)程進(jìn)行建模與量化。降低資管產(chǎn)品之間的風(fēng)險耦合度,預防風(fēng)險擴大。在實(shí)踐應用中,查詢(xún)層數大于二層時(shí),相比較于傳統關(guān)系型數據庫查詢(xún)速度有數百倍到幾千倍的提升,千億規模的資產(chǎn)風(fēng)險可以秒級發(fā)現。其次,人工智能中復雜網(wǎng)絡(luò )可做數據結構升維的隱含知識表達?;ヂ?lián)網(wǎng)時(shí)代的到來(lái)深刻地改變了人與人之間的連接方式,同時(shí)也為在更大規模上驗證人類(lèi)網(wǎng)絡(luò )究竟有多小提供了可能。也就是說(shuō)更大的網(wǎng)絡(luò )、更小的世界。而傳統關(guān)系型數據庫的每次關(guān)聯(lián)都需要一次log計算,是矩陣模型的計算量的N倍,其性能?chē)乐叵陆?。復雜網(wǎng)絡(luò )則不同,它可以很好地呈現節點(diǎn)和關(guān)系網(wǎng)絡(luò )圖譜,在面對數據多樣、復雜、孤島化,以及單一數據價(jià)值不高的應用場(chǎng)景時(shí),存在關(guān)系深度搜索、規范業(yè)務(wù)流程、規則和經(jīng)驗性預測等需求,使用知識圖譜解決方案將帶來(lái)最佳的應用價(jià)值。如圖4所示,在查找與節點(diǎn)A相關(guān)的節點(diǎn)B的屬性信息時(shí),使用復雜網(wǎng)絡(luò )只需進(jìn)行一次log計算即可獲取結果,而如果要通過(guò)傳統數據庫的關(guān)系型模型實(shí)現,則需要通過(guò)至少N-1次jion才能得到結果(N=A節點(diǎn)的一度關(guān)聯(lián)個(gè)數),可以發(fā)現,如果進(jìn)行大量此類(lèi)結算,使用復雜網(wǎng)絡(luò )的矩陣模型在同等配置情況下將會(huì )節省大量查詢(xún)時(shí)間。
圖4 jion查詢(xún)對比示意
在證券行業(yè),原來(lái)傘型配資在同一個(gè)實(shí)體賬戶(hù)上同時(shí)有多個(gè)配資者進(jìn)行交易,非常容易抽象的刻畫(huà)行為。但到了一個(gè)實(shí)體賬戶(hù)上,同時(shí)只有一個(gè)配資者進(jìn)行交易,大量實(shí)體賬戶(hù)被使用,隱蔽性越來(lái)越強,如何快速捕捉交易風(fēng)格的快速切換?深度學(xué)習通過(guò)組合底層特征形成更加抽象的高層表示屬性類(lèi)別或特征,以發(fā)現數據的分布特征表示。與人工規則構成的方法相比,利用大數據來(lái)學(xué)習特征,更能豐富客戶(hù)數據的內在信息。比如券商的智查系統,可以應用深度學(xué)習孿生神經(jīng)網(wǎng)絡(luò )模型,建模識別、監測賬戶(hù)的使用一致性,找出潛在配資行為;采用聯(lián)邦學(xué)習技術(shù),實(shí)現“數據不出門(mén),可用不可見(jiàn)”,在保障數據安全情況下,最大化利用行業(yè)跨機構數據價(jià)值,充分發(fā)揮行業(yè)云的行業(yè)價(jià)值。梅特卡夫定律告訴我們,一個(gè)網(wǎng)絡(luò )的價(jià)值與聯(lián)網(wǎng)的用戶(hù)數的平方成正比。原來(lái)一個(gè)東西存在供需雙方,但在****數字經(jīng)濟下,消費的數據也反哺給了我們,產(chǎn)銷(xiāo)合一,數據的消費者即生產(chǎn)者。與此同時(shí),支撐金融智能時(shí)代的基礎設施技術(shù)需要升級跨越。相信隨著(zhù)人工智能認知計算的普及落地,更多機器數據生產(chǎn)消費,AI-Native數據庫將會(huì )主導和統一市場(chǎng),成為新一代金融基礎設施。
結語(yǔ)數據庫是基礎軟件皇冠上的明珠,是每一家公司業(yè)務(wù)系統的核心。在這個(gè)賽道上,甲骨文是一座繞不開(kāi)的大山,只要市場(chǎng)上不出現替代者它可以一直坐享其成。國產(chǎn)數據庫起步晚,在信息、人才、技術(shù)等多重窘境之下,很多企業(yè)采用“拿來(lái)主義”的手段彌補國產(chǎn)技術(shù)的空白。要么基于開(kāi)源系統改進(jìn),要么從廠(chǎng)商購買(mǎi)源碼授權。這有點(diǎn)像汽車(chē)產(chǎn)業(yè),引進(jìn)的人很多,但是自主升級開(kāi)發(fā)卻很難。但中國大數據云計算的發(fā)展,傳統數據庫技術(shù)已經(jīng)很難支撐,新一代AI原生國產(chǎn)數據庫才是新底座。達爾文說(shuō):“自然界的競爭,并無(wú)必然法則可尋,關(guān)鍵在于個(gè)體偶發(fā),是個(gè)體自發(fā)變異主導著(zhù)進(jìn)化的必然?!闭l(shuí)能提供支持混合負載的混布數據庫技術(shù),提供流批一體技術(shù)服務(wù),誰(shuí)就能對抗西方在開(kāi)源系統封裝服務(wù)領(lǐng)域的現有市場(chǎng),就能定義新一代金融基礎設施。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
物聯(lián)網(wǎng)相關(guān)文章:物聯(lián)網(wǎng)是什么
電路相關(guān)文章:電路分析基礎
pic相關(guān)文章:pic是什么