科技公司的尷尬戰爭:算法的“好意”,險些毀了一位父親的人生
家住舊金山的馬克怎么都沒(méi)想到,本來(lái)急著(zhù)給自己兒子看病,給醫生發(fā)了一張照片,結果卻讓自己險些身敗名裂。
事情發(fā)生在去年年初,由于當時(shí)仍處在疫情高峰期,一些非緊急醫療機構都關(guān)閉了服務(wù),也包括馬克家選擇的兒童診所。馬克發(fā)現自己兒子的私處出現腫脹,急忙尋求專(zhuān)業(yè)人士的幫助,和醫生打視頻電話(huà)。
在視頻之前,護士讓馬克發(fā)一張照片給醫生看下。馬克照做了。
然而讓他沒(méi)想到的是,這張照片可給他惹了大禍了。

圖文無(wú)關(guān) 圖片來(lái)源:Bicanski / CC0 授權
/ 愛(ài)子心切的父親,算法眼中的“戀童癖” /
在照片發(fā)出的兩天后,馬克突然接到了谷歌的一紙通知。
由于涉嫌儲存和傳播有害內容,嚴重違反用戶(hù)協(xié)議和公司政策,并且涉嫌違法,他的谷歌賬號被完全關(guān)閉。
由于馬克是谷歌全家桶的忠實(shí)用戶(hù),谷歌這一決定的后果相當慘痛:
他不僅失去了自己的 Gmail 郵件、通訊錄、日歷,還因為是 Google Fi 虛擬運營(yíng)商的用戶(hù),連手機號都被一起凍結了。
到了這里,噩夢(mèng)還遠未結束。
谷歌不僅封了他的賬號,還直接把這件事報到專(zhuān)門(mén)打擊兒童****/****內容的監督機構那去了,該機構后來(lái)又聯(lián)系了舊金山警察部門(mén)。終于在去年年底,舊金山警方從谷歌公司那里調取了關(guān)于馬克的所有資料和記錄,正式對馬克展開(kāi)了調查。
長(cháng)達一年的時(shí)間里,馬克面臨“戀童癖”的嚴重指控,工作生活都難以開(kāi)展,甚至幾乎“身敗名裂”……
《紐約時(shí)報》描述此事的文章提到,將馬克置于尷尬境地的,正是谷歌少為人知的兒童****內容打擊系統。
根據美國政府的定義,兒童****內容(Child Sexual Abuse Material,以下簡(jiǎn)稱(chēng) CSAM),包括照片、視頻等,只要其中涉及未成年人露骨****行為的畫(huà)面,都屬于此類(lèi)內容。更具體來(lái)說(shuō),涉及包括誘騙、勒索、展示/鼓動(dòng)/宣揚性化 (sexualization) 未成年人、拐賣(mài)兒童性質(zhì)的內容,都屬于谷歌明令禁止的 CSAM 范疇。

為了防止平臺、產(chǎn)品和技術(shù)被用于傳播 CSAM,谷歌投入了大量資源,對 CSAM 進(jìn)行掃描、阻止、移除和舉報——然而這次讓馬克遭殃的并不是谷歌的掃描技術(shù),而是谷歌的人工查驗流程出了疏漏。
在各大公司,CSAM 檢索和事后舉報的流程,都包括了算法掃描和人工查驗的雙保險制度,谷歌也不免俗。然而在馬克的遭遇當中,在算法發(fā)現了照片,并自動(dòng)觸發(fā)系統鎖死馬克的賬戶(hù),并交由人工查驗之后,核查員似乎并沒(méi)有考慮當時(shí)的場(chǎng)景,沒(méi)有發(fā)現這張照片是發(fā)給醫療專(zhuān)業(yè)人士的。
事后,馬克立即進(jìn)行了申訴。然而谷歌不僅拒絕復核之前做出的決定,甚至都不讓他下載保存自己的數據。被關(guān)閉的賬號,數據在兩個(gè)月后就被自動(dòng)刪除了,馬克失去了過(guò)去多年積累的很多重要信息。
事情就這樣拖了整整一年,直到去年年底警方正式啟動(dòng)了調查。
在這一年里,馬克幾近“社死”,很難跟同事和朋友完整、誠實(shí)地解釋?zhuān)约旱碾娫?huà)號碼、郵箱,為什么突然就憑空消失了。
直到今年前不久,當地警方才完成了調查并予以結案。
結果毫無(wú)意外:馬克無(wú)罪。

圖文無(wú)關(guān) 圖片來(lái)源:Direct Media / CC0授權
對于把自己的忠實(shí)用戶(hù)推進(jìn)深淵,谷歌用法律作為擋箭牌的解釋?zhuān)芎锨楹侠?,卻也綿軟無(wú)力。一位公司發(fā)言人表示,美國的兒童保護相關(guān)法律要求像谷歌這樣的公司必須對發(fā)現的 CSAM 事件進(jìn)行上報。
根據谷歌的透明度報告,僅在2021年度,公司就屏蔽了近120萬(wàn)個(gè)涉及 CSAM 的超鏈接,向美國相關(guān)監督機構“全國失蹤與受虐兒童服務(wù)中心” (NCMEC) 提交了87萬(wàn)份報告,涉及約670萬(wàn)條內容,關(guān)閉了約27萬(wàn)個(gè)賬號。
遺憾的是,馬克不幸成為了27萬(wàn)分之一。
身處這27萬(wàn)人中間,就像那些進(jìn)了監獄卻高喊著(zhù)無(wú)辜的人一樣,那種有冤情說(shuō)不出,說(shuō)出也不被人相信的滋味,簡(jiǎn)直無(wú)法想象。
/ 好心辦壞事 /
在介紹打擊 CSAM 工作的官方頁(yè)面上,谷歌宣稱(chēng),公司組建并訓練了專(zhuān)門(mén)的隊伍,使用最尖端的技術(shù)來(lái)識別 CSAM。
目前在美國大公司的范圍里,檢索 CSAM 有兩種技術(shù)途徑:哈希值匹配,和計算機視覺(jué)識別。
哈希值匹配比較簡(jiǎn)單,就是調取市面上第三方機構維護的數據庫里的條目,和自己平臺上的圖片進(jìn)行哈希值匹配,從而檢測已知的 CSAM 相關(guān)內容。這方面早年谷歌曾經(jīng)用過(guò)微軟的 PhotoDNA。這項技術(shù)已經(jīng)存在了10年多的時(shí)間了,不止谷歌,包括 Meta、Reddit、Twitter 等公司,以及 CSAM 領(lǐng)域的權威公共監督機構 NCMEC,都在使用它。

圖片來(lái)源:微軟
以及,谷歌系的 YouTube 也在使用自研的 CSAI Match 技術(shù)來(lái),實(shí)現流媒體視頻的哈希匹配。
當然,每天都有新的違法圖片和視頻誕生,所以除了哈希匹配之外,谷歌還自研并部署了基于計算機視覺(jué)技術(shù)的機器學(xué)習分類(lèi)器,從而檢索“未曾見(jiàn)過(guò)”的相關(guān)內容。
谷歌將這一技術(shù)整合到了 Content Safety API 當中,也開(kāi)放給第三方使用。目前,包括 Meta、Reddit、Adobe、雅虎等公司,也是谷歌自研 CSAM 檢索技術(shù)的用戶(hù)和合作伙伴。

至于本次案件,谷歌似乎是從馬克的 Google Photos 檢索到了相關(guān)內容。
Google Photos 是谷歌推出的照片備份和云端相冊服務(wù),在自有品牌以及其它一些主流 Android 手機廠(chǎng)商的機型上都有預裝。值得注意的是,用戶(hù)在 Google Photos 里登錄谷歌賬號后,應用會(huì )提示建議用戶(hù)打開(kāi)自動(dòng)上傳備份——馬克可能就是在這里吃了虧。
如果打開(kāi)了自動(dòng)上傳功能,除了在某些第三方應用(比如 Twitter、Instagram) 下載的照片之外,包括相機照片集,以及手機上生成的其它照片,都會(huì )被 Google Photos 會(huì )自動(dòng)上傳到云端。
而根據官方網(wǎng)站和公司發(fā)言人透露的情況,谷歌不止明令限制用戶(hù)通過(guò) Google Photos 上傳和傳播相關(guān)內容,它的 CSAM 打擊系統,也會(huì )對 Google Photos 里的照片進(jìn)行掃描和匹配。
問(wèn)題在于,根據谷歌發(fā)言人的表述,CSAM 打擊系統的對象僅限于用戶(hù)“主動(dòng)行為” (affirmative action) 上傳的圖片。
從務(wù)實(shí)的角度來(lái)看,馬克開(kāi)啟了 Google Photos 自動(dòng)上傳,結果因為急著(zhù)給娃看病,拍了這張照片,自動(dòng)上傳了,忘了刪,回頭被谷歌找上麻煩——這樣也要算作主動(dòng)行為,未免有點(diǎn)牽強。

圖片來(lái)源:《紐約時(shí)報》
掃描 CSAM,能夠保護兒童安全,有效地打擊戀童癖和各種變態(tài),聽(tīng)上去怎么都是一件好事對不對?
然而實(shí)際上,近年來(lái)美國大型互聯(lián)網(wǎng)和科技公司在做這件事的時(shí)候各種問(wèn)題故障和丑聞不斷——結果就是,算法自動(dòng)化打擊 CSAM 這件事,在技術(shù)道德和隱私權方面已經(jīng)引發(fā)了巨大爭議。
如果把谷歌這次烏龍事件形容為“人禍”的話(huà),那么去年同一時(shí)間蘋(píng)果出的事故,可以稱(chēng)得上“天災”了。
去年8月初,蘋(píng)果突然宣布,將要在 iOS 平臺上推出一個(gè)專(zhuān)門(mén)掃描 CSAM 的客戶(hù)端側工具。

蘋(píng)果突出的關(guān)鍵詞在“端側”上:和谷歌一直以來(lái)掃描云端服務(wù)器存儲的用戶(hù)內容的做法不同,蘋(píng)果表示只會(huì )在用戶(hù)設備上做這件事,系統會(huì )下載 NCMEC 的數據庫,然后完全在本地進(jìn)行哈希值匹配。
然而,蘋(píng)果所謂的“端側”、“注重隱私”等,只是表面說(shuō)辭。有專(zhuān)家發(fā)現,實(shí)際上用戶(hù)發(fā)送到 iCloud 保存的照片也會(huì )成為檢測對象。還有研究者發(fā)現蘋(píng)果所采用的匹配算法 NeuralHash 存在設計理念缺陷。而且這一技術(shù)根本不是即將推出,而是好久以前就偷偷植入到公開(kāi)版 iOS 里了,蘋(píng)果還專(zhuān)門(mén)混淆了 API 命名,以便“隱姓埋名”。
結果,蘋(píng)果宣布了這件事之后沒(méi)出一個(gè)月,就有人對 NeuralHash 算法實(shí)現了哈希碰撞和“原像攻擊”。
簡(jiǎn)單來(lái)說(shuō),哈希碰撞就是找到兩張哈希值相同的隨機照片;而原像攻擊,則是“刻意生成的碰撞”,也即先給定一張照片,然后生成另一張和其哈希值相同,但內容不同的照片。
甚至,有人直接在廣受歡迎的 ImageNet 標注圖像數據庫里,都能夠找到幾對天然的 NeuralHash “雙胞胎”(兩張不同的原視圖片,哈希值相同)……
這些攻擊測試的結果,從原理和邏輯上直接推翻了蘋(píng)果的 CSAM 檢索技術(shù),使其一文不值。

早期測試的結果顯示,NeuralHash 的哈希碰撞發(fā)生率和蘋(píng)果宣稱(chēng)的誤報率水平差不多,屬于可以接受的范圍。然而考慮到蘋(píng)果在全球擁有超過(guò)15億設備用戶(hù),基數過(guò)于巨大,一旦 NeuralHash 出現誤報,甚至哈希碰撞導致的事故,都會(huì )波及大量用戶(hù)。
總的來(lái)看,目前谷歌、蘋(píng)果這兩大移動(dòng)平臺級超大型公司,在掃描和打擊兒童****這件事上,都確實(shí)努力做了一些事情,也值得鼓勵。
然而這件事的另一面,卻令人大為遺憾:
因為一張隨手拍出的照片,工作和生活陷入僵局,甚至險些身敗名裂,這恐怕是馬克,以及不少和他經(jīng)歷相似的人,所完全沒(méi)有預料到的。
這也是整件事的尷尬之處:在過(guò)界的美國科技平臺和它們糟糕的算法面前,好心真的可能會(huì )辦壞事。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。