概述:機器學(xué)習和大數據技術(shù)在信貸風(fēng)控場(chǎng)景中的應用(1)
來(lái)源:知乎
似乎一夜之間,所有的互聯(lián)網(wǎng)公司在對外的宣傳稿中都會(huì )提及自己使用機器學(xué)習和大數據技術(shù),一時(shí)間成為了近幾年來(lái)最炙手可熱的名詞,不談機器學(xué)習、大數據似乎都不好意思說(shuō)自己是做高新技術(shù)的了。
百度搜索指數:機器學(xué)習
百度搜索指數:大數據
上圖來(lái)自最近7年來(lái)這兩個(gè)詞的百度搜索指數,可以看到從2013年開(kāi)始一直在穩步攀升,在2017年的時(shí)候迎來(lái)了爆發(fā)式的增長(cháng),這些都與我們的感知類(lèi)同。
機器學(xué)習與人腦思維的區別
機器學(xué)習和大數據應用是相輔相成的,目的是想用機器去模擬人類(lèi)的思考過(guò)程,人類(lèi)通過(guò)自身經(jīng)歷經(jīng)過(guò)思考可以形成經(jīng)驗,并用來(lái)解決新的問(wèn)題,而機器學(xué)習是需要利用大量的歷史數據去訓練一個(gè)模型去解決一個(gè)特定的問(wèn)題:比如識別兩張臉是否一致、該用戶(hù)是不是精準客戶(hù)等。
雖然這兩個(gè)詞這兩年才火起來(lái),但是這些概念早在半個(gè)多世紀前就有理論的提出,尤其機器學(xué)習的算法已經(jīng)在幾十年前就非常成熟了,但是受制于計算效率、存儲等硬件的限制,大數據和機器學(xué)習在實(shí)際業(yè)務(wù)上的應用場(chǎng)景十分受限,很難有大規模的場(chǎng)景應用。最近十年來(lái)隨著(zhù)存儲、芯片等層面的突破讓大數據和機器學(xué)習的計算應用成本大大降低,這也支撐了基于這兩項技術(shù)的應用場(chǎng)景呈現爆發(fā)式增長(cháng)。
除了機器學(xué)習之外,我們也發(fā)現互聯(lián)網(wǎng)信貸成為了這幾年最火的行業(yè)方向,互聯(lián)網(wǎng)信貸的工作重心在風(fēng)控。于是天作佳成,正如目前我們看到的,信貸風(fēng)控成為當前機器學(xué)習和大數據技術(shù)最適合也是最成熟的應用場(chǎng)景之一:
1.金融業(yè)務(wù)自身需要大量的數據且也會(huì )產(chǎn)生更多的數據,這天然的讓信貸風(fēng)控成為最適合大數據和機器學(xué)習的場(chǎng)景;
2.風(fēng)控涉及的數據量大、數據面廣、關(guān)聯(lián)復雜,也急需利用大數據和機器學(xué)習技術(shù)解決風(fēng)控過(guò)程中效率低、缺乏公平準則、風(fēng)險難以量化的問(wèn)題;
所以正是因為這樣的相互依賴(lài),信貸風(fēng)控成為當前大數據和機器學(xué)習技術(shù)應用最成熟的領(lǐng)域之一。
信貸風(fēng)控中的主要問(wèn)題
信貸風(fēng)控最關(guān)鍵的目標就是從全量申請用戶(hù)樣本中找到會(huì )逾期的客戶(hù),所以風(fēng)控的核心目的是評估用戶(hù)的還款意愿和還款能力。從過(guò)去的業(yè)務(wù)實(shí)踐經(jīng)驗來(lái)看,風(fēng)控當中需要重點(diǎn)關(guān)注的問(wèn)題包括:
非本人申請:申請人利用虛假身份申請信貸,這一問(wèn)題在信貸業(yè)務(wù)高速增長(cháng)的蠻荒階段,****或者互金機構缺乏對黑產(chǎn)全面的認知,在部分業(yè)務(wù)環(huán)節被黑產(chǎn)用虛假/殘缺或者非本人身份證欺詐,包括一些知名的持牌消金機構也遇到過(guò)大量類(lèi)似的欺詐案例。
偽造資料:申請人為了更容易獲得貸款或者貸后惡意逾期避免催收,偽造收入證明、聯(lián)系人、工作地址等資料。
中介團伙:中介在網(wǎng)絡(luò )上大量招徠需要信貸申請的用戶(hù),使用不同的攻略“教”客戶(hù)如何有機會(huì )以較高概率通過(guò)****/信貸機構的審核。
歷史信用記錄:用戶(hù)歷史如果存在大量失信行為,或者存在****/毒等不良社會(huì )行為,那么其逾期失聯(lián)的概率也很高。
還款能力不足:申請人負債收入比較高,外部有大量債務(wù)且自身收入不穩定,這些都有可能導致用戶(hù)愿意還款但是卻沒(méi)有能力還款。
基于大數據和機器學(xué)習技術(shù)的風(fēng)控解決方案
為了解決上述的這些問(wèn)題,目前業(yè)內已經(jīng)形成了一套基于大數據和機器學(xué)習技術(shù)的較為完整的解決方案。
非本人申請:人臉識別技術(shù)
目前人臉識別技術(shù)已經(jīng)應用在生活中的方方面面,如刷臉支付、高鐵進(jìn)站甚至公安的天網(wǎng)系統;而在金融業(yè)務(wù)中,****辦理、網(wǎng)貸申請也都普遍使用人臉識別:將申請人照片與在公安系統中身份證存照進(jìn)行比對,判斷兩張照片的相似度,可有效避免非本人申請的問(wèn)題。
與人類(lèi)識別面部類(lèi)似,當我們人類(lèi)對一個(gè)人比較熟悉的時(shí)候,我們很容易根據他的面部特征與我們在腦海里過(guò)去存儲的特征進(jìn)行比對,就能判斷這個(gè)人是否是這個(gè)人(雖然也會(huì )有誤判的時(shí)候),同樣的,人臉識別技術(shù)的背后也是一套深度學(xué)習的算法,把我們思考的過(guò)程轉化為模型算法,目前市面上有多家提供人臉識別服務(wù)的商業(yè)化應用公司,不過(guò)其算法的本質(zhì)基本是類(lèi)同的,人臉識別的核心思想在于:不同人臉由不同特征組成。
理解這個(gè)思想,首先需要引入的的是“特征”的概念。先看下面這個(gè)例子:
最簡(jiǎn)單的人臉特征
假設這 5 個(gè)特征足夠形容一張人臉,那每張人臉都可表示為這 5 個(gè)特征的組合:
(特征1,特征2,特征3,特征4,特征5)
一位雙眼皮,挺鼻梁,藍眼睛,白皮膚,瓜子臉的小姐姐即可用特征表示為(見(jiàn)表格加粗項):(1,1,0,1,0)
那么遍歷上面這張特征表格一共可以代表32張不同的臉。32 張臉可遠遠不夠覆蓋70 多億的人口。為了讓不同特征組成的人臉能覆蓋足夠多人臉,我們需要擴充上面那張特征表。擴張特征表可以從行、列兩個(gè)角度展開(kāi)。
列的角度很簡(jiǎn)單,只需要增加特征數量:(特征6.臉型,特征7.兩眼之間距離,特征8.嘴唇厚薄…)實(shí)際應用中通常應用 128,256,512 或者 1024 個(gè)不同特征。從行的角度擴充也很好理解,比如“特征3”,除了值 0 代表藍色,值 1 代表灰色,是不是可以增加一個(gè)值 2 代表黑色,值 3 代表沒(méi)有頭發(fā)呢?此外,除了這些離散的整數,我們也可以取連續的小數,比如特征 3 的值 0.1,代表“藍中略微帶黑”,值 0.9 代表“灰中帶藍”……
百度開(kāi)源平臺:面部特征識別
經(jīng)過(guò)這樣的擴充,特征空間便會(huì )變得無(wú)限大。擴充后特征空間里的一張臉可能表示為:
一張臉提取出128維特征變量
用于表示人臉的大量特征從哪來(lái)?這便是深度學(xué)習(深度神經(jīng)網(wǎng)絡(luò ))發(fā)揮作用的地方。它通過(guò)在千萬(wàn)甚至億級別的人臉數據庫上學(xué)習訓練后,會(huì )自動(dòng)總結出最適合于計算機理解和區分的人臉特征。
闡明了不同人臉由不同特征組成后,我們便有了足夠的知識來(lái)分析人臉,算法工程師通常需要一定的可視化手段才能知道機器到底學(xué)習到了哪些利于區分不同人的特征:同一人的不同照片提取出的特征,在特征空間里距離很近,不同人在特征空間里相距較遠。
三張不同角度的撒貝寧照片經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò )提取出 128 維的特征后,變成了 3 個(gè)在 128 維空間中的點(diǎn)(紅色),劉德華的特征點(diǎn)為綠色。
不過(guò)在實(shí)際應用中在光照較差、遮擋、形變(大笑)、側臉等諸多條件下,神經(jīng)網(wǎng)絡(luò )很難提取出與“標準臉”相似的特征。另外,在金融風(fēng)控領(lǐng)域還需要解決偽造人臉的情況,面對這些問(wèn)題,通常采取四種應對措施:
1. 工程角度:研發(fā)質(zhì)量模型,對檢測到人臉質(zhì)量進(jìn)行評價(jià),質(zhì)量較差則不識別/檢驗。
2. 應用角度:施加場(chǎng)景限制,比如刷臉解鎖、人臉閘機、會(huì )場(chǎng)簽到時(shí),都要求用戶(hù)在良好的光照條件下正對攝像頭,以避免采集到質(zhì)量差的圖片。
3. 算法角度:提升人臉識別模型性能,在訓練數據里添加更多復雜場(chǎng)景和質(zhì)量的照片,以增強模型的抗干擾能力。
4.精準活體識別:通過(guò)3D建模軟件可以使用用戶(hù)已有的照片模擬一張真實(shí)的頭像,以此來(lái)騙過(guò)人臉識別算法,所以如何驗證這個(gè)頭像是來(lái)自一個(gè)真實(shí)的人同樣也是一個(gè)機器學(xué)習的過(guò)程。
鯤魚(yú)科技-靈犀聯(lián)合實(shí)驗室“模擬人臉攻擊”示例
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。