揭秘阿里打假AI大腦:數據總量186個(gè)國家圖書(shū)館,1 AI=50000人類(lèi),獲創(chuàng )新大獎
另一項體現場(chǎng)景挑戰和技術(shù)水平的是安全場(chǎng)景特有的對抗性問(wèn)題。
本文引用地址:http://dyxdggzs.com/article/201908/403730.htm售假賣(mài)家往往會(huì )通過(guò)改變“標題”和“描述”以躲避傳統規則和模型的識別,但這并非完全無(wú)跡可尋。
混淆語(yǔ)言是一種被用于在對抗交流場(chǎng)景下實(shí)現規避檢測的技術(shù)手段。
對抗交流場(chǎng)景包括敏感信息傳播、負面情感表達、秘密行動(dòng)策劃以及違法交易等?;煜Z(yǔ)言的實(shí)現方式通常是在原始文本里進(jìn)行變異詞的替換。
監管機構在識別此類(lèi)文本時(shí),需要根據一組關(guān)鍵詞進(jìn)行掃描過(guò)濾。盡管引入了一些語(yǔ)義擴展技術(shù),但是由于文本中的歧義性以及變異的無(wú)邊界,導致識別此類(lèi)文本的準確率和召回率都十分有限。
阿里在WWW 2019上發(fā)表的論文,集中披露了該方向上的核心進(jìn)展。
該論文的主要思路是將混淆語(yǔ)言識別轉化為一個(gè)文本匹配任務(wù),即每條待檢測信息,是否匹配一個(gè)掃描關(guān)鍵詞,并且同時(shí)整合了文本信息的文本表示和視覺(jué)表示。
這里的視覺(jué)表示指的是文字自身的視覺(jué)效果,而不是信息中的圖片,主要是因為在進(jìn)行文本變異混淆時(shí),經(jīng)常會(huì )出用一些看起來(lái)像的字符進(jìn)行替換,這種變異導致了混淆后的內容在語(yǔ)義上可能已經(jīng)跟原始內容沒(méi)有任何關(guān)聯(lián),但是從視覺(jué)效果上卻可以產(chǎn)生聯(lián)系。
阿里的模型利用BiLSTM對文本特征進(jìn)行表示,通過(guò)基于模板匹配的方式對視覺(jué)特征進(jìn)行表示,通過(guò)多模態(tài)的整合,可以比傳統方法表現出更高的準確率和召回率。
另外就是結合圖像視頻和自然語(yǔ)言處理的多模態(tài)任務(wù)解決方法。
論文發(fā)表于ICASSP 2019,其中列舉的任務(wù)也頗有意思:通過(guò)一段文本描述,自動(dòng)地編輯源圖像使其符合給出的文本描述,從而簡(jiǎn)化圖像編輯流程,是一種基于文本的圖像編輯方法。電商網(wǎng)站中的商品本身就是文字與圖片的混合內容,因此可以期待這項技術(shù)可以加強對商品內涵的理解,更有助于發(fā)現假、劣商品。
感興趣的盆友可移步傳送門(mén):http://arxiv.org/abs/1903.07499
最后再介紹一項業(yè)內sexy,且對打假AI貢獻不小的技術(shù)進(jìn)展:小樣本學(xué)習。
假貨問(wèn)題(安全問(wèn)題)中最頭疼的點(diǎn),莫過(guò)于對新出現的風(fēng)險缺乏足夠訓練的樣本,導致諸多優(yōu)秀機器學(xué)習算法望而卻步。
在CVPR 2018上,阿里安全圖靈實(shí)驗室團隊,圍繞業(yè)內前沿的“零樣本視頻檢索”挑戰,給出解決方案。
視頻檢索,通常要在文本和視頻之間提取跨模態(tài)相關(guān)性,需要基于內容匹配。
但阿里的方法之不同,在于提出了一種內容無(wú)關(guān)的方法,通過(guò)雙重深度編碼網(wǎng)絡(luò )來(lái)將視頻和文本編碼為各自模態(tài)的密集式表征。
并且雙重編碼概念簡(jiǎn)單、切實(shí)有效,還可以端到端學(xué)習。
在三個(gè)基準數據集MSR-VTT、TRECVID2016、2017上實(shí)驗后,證明阿里提出的零樣本視頻檢索方法已達到目前最佳。
論文傳送門(mén):http://arxiv.org/abs/1809.06181
就在最近的機器學(xué)習頂會(huì )IJCAI-2019上,阿里安全成功舉辦了第一屆AAAC競賽(Alibaba Adversarial AI Challenge)以及AIBS研討會(huì )(Artificial Intelligence for Business Security),旨在探索面臨對抗攻擊時(shí),如何解決AI模型的安全性問(wèn)題。競賽和會(huì )議吸引了來(lái)自24個(gè)國家和地區的2000多支隊伍參與,過(guò)程中涌現出不少新思路和新方法,極大地推動(dòng)了這一領(lǐng)域的發(fā)展。
“AI發(fā)展趨勢是一定的,但AI應用來(lái)解決安全問(wèn)題時(shí)并不能生搬硬套,需要根據實(shí)際場(chǎng)景進(jìn)行AI的技術(shù)升級,”薛暉在今年年初的公開(kāi)采訪(fǎng)中就指出,安全會(huì )成為未來(lái)AI開(kāi)發(fā)的最大挑戰, “安全AI”會(huì )成為未來(lái)網(wǎng)絡(luò )安全問(wèn)題的新解法,也將在2019年迎來(lái)爆發(fā)期。
如今阿里“知產(chǎn)保護科技大腦”的成功實(shí)踐不斷得到行業(yè)乃至全球的認可,正印證了這一斷言。
阿里打假AI,用技術(shù)解決社會(huì )問(wèn)題
打假AI大腦成功,幕后原因并不難分析。這也會(huì )是阿里各項業(yè)務(wù)在A(yíng)I時(shí)代里還會(huì )更繁榮的保證。
打假作為綜合因素導致的社會(huì )問(wèn)題,利用AI等技術(shù)實(shí)現其實(shí)并非易事,沒(méi)有對比,可能就難看出誠心誠意。
比如美國電商巨頭亞馬遜,其實(shí)也在今年新推出一項名為“Project Zero”的打假防偽項目,通過(guò)與品牌方合作,打擊消除假貨。
但在具體技術(shù)機制上,就目前披露情況而言,相較阿里的打假AI大腦,技術(shù)上稍遜一籌。
因為亞馬遜的打假AI,還需要合作品牌提供logo、商標和其他信息,甚至讓品牌方利用工具標記并禁止仿冒品。
仍更多依賴(lài)監督學(xué)習的方式,自動(dòng)化程度和AI通用能力還相對不足,對于阿里無(wú)監督、小數據學(xué)習和系統性大腦,技術(shù)能力和挑戰,高下立判。
所以也難怪美國眾議院司法委員會(huì )副主席道格·柯林斯在調研了亞馬遜、eBay、阿里在內的電商平臺后,給出評價(jià):“阿里巴巴的打假政策和項目比任何美國同行都有效得多?!?/p>
阿里之道の一以貫之
最后,阿里的做事方式,依然值得關(guān)注。
宏觀(guān)層面來(lái)看,知產(chǎn)保護科技大腦,依然是又一次阿里式創(chuàng )新的成功。
打假難題,源頭在社會(huì )發(fā)展階段和人性劣根處。面臨的挑戰,跟電商、支付、物流、計算和自主芯片,本質(zhì)相同,困難無(wú)差。
但阿里之道一以貫之,為打假而生的AI大腦系統,依然是淘寶天貓、支付寶、阿里云,菜鳥(niǎo)和平頭哥模式的延續:
技術(shù)驅動(dòng),打造系統平臺,從根本上解決問(wèn)題。而且俠之大者,未來(lái)也會(huì )兼濟天下,賦能各行各業(yè)甚至各國,能力所至,皆受其益。
會(huì )有那么一天,天下再無(wú)假貨嗎?夢(mèng)想或許還是可以有的。
畢竟 AI can do,Ali is doing……
評論