<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 業(yè)界動(dòng)態(tài) > 人工智能:破解梵蒂岡神秘卷宗之謎

人工智能:破解梵蒂岡神秘卷宗之謎

作者: 時(shí)間:2018-05-14 來(lái)源:網(wǎng)絡(luò ) 收藏

  這個(gè) AI 認識中世紀手寫(xiě)拉丁文

本文引用地址:http://dyxdggzs.com/article/201805/379837.htm

  “以后青銅銘文也交給 AI 來(lái)識別好了!”

  AI 識別文字已經(jīng)不算是什么難事,但是如果字體是手寫(xiě),而且還是古文呢?

  這似乎聽(tīng)起來(lái)具有相當的難度!

  梵蒂岡秘密檔案館(Vatican Secret Archives)可謂全球最偉大的歷史藏品之一,但其珍藏的許多文件從未轉錄。近日,一個(gè)名為 Codice Ratio 項目,利用與光學(xué)字符識別(簡(jiǎn)稱(chēng) OCR)軟件的組合重現這些被忽視的文本,并將其重新呈現在世人面前。

  這座恢宏的建筑坐落在梵蒂岡城墻之內,毗鄰使徒圖書(shū)館、位于西斯廷大教堂北側,擁有著(zhù)可追溯于1200年之前的總長(cháng)達53英里的書(shū)架。除了將Martin Luther逐出教會(huì )的《教皇詔書(shū)》之外,其中還包括蘇格蘭瑪麗女王被處決之前發(fā)給教皇西克斯五世的函件。在規模與范圍方面,其中的收藏幾乎著(zhù)稱(chēng)無(wú)與倫比。

人工智能:破解梵蒂岡神秘卷宗之謎,以后青銅銘文也交給 AI 來(lái)識別好了!

  然而,梵蒂岡秘密檔案館對現代學(xué)者卻沒(méi)多大現實(shí)意義。因為在這長(cháng)達53英里的書(shū)架當中,只有極少數書(shū)頁(yè)經(jīng)過(guò)掃描以提供在線(xiàn)版本,這當中的一小部分轉錄為計算機文本以供內容搜索。如果我們打算閱讀其它任何內容,則必須申請特殊的訪(fǎng)問(wèn)權限,一路前往羅馬,并親自動(dòng)手翻開(kāi)這些古籍。

  傳統 OCR 技術(shù)只適用于經(jīng)過(guò)嚴格排版的文字,而對于字母之間缺少間隔空間(即臟分割)的手寫(xiě)卷宗形式則無(wú)法識別。對此, Codice Ratio 項目利用拼圖分割法將單詞理解為一種單筆筆劃,軟件只需要知曉哪些組塊代表真實(shí)的字母,而哪些只是連筆造成的假象即可。該軟件的手寫(xiě)字母判斷準確率已經(jīng)高達96%。如果成功,這項技術(shù)還將被用于處理世界各地其它歷史檔案庫當中數不勝數的其它記錄文件。

人工智能:破解梵蒂岡神秘卷宗之謎,以后青銅銘文也交給 AI 來(lái)識別好了!

  利用拼圖分割法讓 OCR 識別連體字

  由于傳統OCR技術(shù)是把單詞分割成一個(gè)個(gè)字母來(lái)識別的,所以對于這類(lèi)連體字,OCR無(wú)法識別字母。有人想出了一個(gè)方案,直接讓OCR去識別一個(gè)個(gè)的單詞,但是,如何讓OCR掌握成千上萬(wàn)的拉丁文單詞呢?大概需要一個(gè)排的中世紀拉丁文專(zhuān)家來(lái)辨認不同單詞的圖形。

  除了請專(zhuān)家辨認單詞外,還有更簡(jiǎn)單的方法幫助OCR識別手寫(xiě)字母,只要找實(shí)習生就可以搞定了。

  我們知道,無(wú)論中文還是英文,連體字中粗的部分是筆畫(huà),細的部分是筆尖移動(dòng)造成的虛線(xiàn),并不是筆畫(huà)的一部分。根據這個(gè)原則,In Codice Ratio的專(zhuān)家們發(fā)明了新的方法——拼圖分割法。拼圖分割法改變了傳統OCR把單詞分成字母的傳統方式,而是是把連在一起的單詞按照筆畫(huà)分隔開(kāi),在此之后,該軟件會(huì )進(jìn)一步進(jìn)行字母繪制,并最終生成以下一系列拼圖碎片:

  

人工智能:破解梵蒂岡神秘卷宗之謎,以后青銅銘文也交給 AI 來(lái)識別好了!

  這些拼圖碎片本身作用不大,但該軟件能夠將其通過(guò)多種方式組合起來(lái)以生成可能的字母。具體來(lái)講,軟件只需要知曉哪些組塊代表真實(shí)的字母,而哪些只是連筆造成的假象即可。

  為了教會(huì )軟件這項能力,研究人員們選擇了不同尋常的導師——高中生。該團隊在意大利的24所學(xué)校當中招募了一批高中生用于建立項目的記憶庫。學(xué)生們在登錄相關(guān)網(wǎng)站后,會(huì )看到如下圖所示的三分屏幕界面:

  

人工智能:破解梵蒂岡神秘卷宗之謎,以后青銅銘文也交給 AI 來(lái)識別好了!

  之后,就要讓識別系統判斷對錯:識別出的字母,哪些是真正的字母,哪些是虛線(xiàn)的誤判。

  通過(guò)一次次點(diǎn)擊,學(xué)生們努力教授該軟件如何識別22個(gè)中世紀拉丁字母(a-i,l-u,以及s與d的某些替代形式)。 22個(gè)中世紀拉丁文字母都學(xué)會(huì )之后,這個(gè)識別系統就成為了一個(gè)能認識手寫(xiě)體中世紀拉丁文的AI。

  當然,最終學(xué)生們也不再需要參與其中。當訓練進(jìn)行到一定階段之后,該軟件即可獨立拼圖,并自行判斷字母的具體位置。這,正是的價(jià)值所在。

  在另一方面,這也證明單靠拼圖碎片還不足以組合出正確的字母。計算機仍然需要額外的幫助才能破解手寫(xiě)文本的秘密。想象一下,大家正在讀信,并在其中看到下面這句:

人工智能:破解梵蒂岡神秘卷宗之謎,以后青銅銘文也交給 AI 來(lái)識別好了!

  中間的單詞到底是“clear”還是“dear”?很難判斷,因為“d”與“cl”的筆畫(huà)構成實(shí)際上完全相同。OCR軟件也面臨著(zhù)同樣的問(wèn)題,特別是在處理高度風(fēng)格化的文本時(shí)更是如此。以下圖為例:

人工智能:破解梵蒂岡神秘卷宗之謎,以后青銅銘文也交給 AI 來(lái)識別好了!

  在經(jīng)過(guò)不同的拼圖組合之后,OCR認為可能的選項包括aimo、amio、aniio、aiino甚至是aiiiio。但這個(gè)詞實(shí)際上是anno,也就是拉丁語(yǔ)中的年。該軟件認準了a和o,但卻弄不清中間的四個(gè)豎到底該如何劃分。

  為了解決這個(gè)問(wèn)題,Codice Ratio團隊不得不為自己的軟件提供一些常識性的知識。他們建立起一套包含150萬(wàn)個(gè)經(jīng)過(guò)數字化的拉丁詞匯語(yǔ)料庫,并對其中的雙字母與三字母組合進(jìn)行了檢查。通過(guò)這種方式,他們確定了哪些字母組合較為常見(jiàn),而哪些永遠不會(huì )出現。通過(guò)將這些統計信息提供給OCR軟件,其能夠了解到不同字符串的具體出現概率,從而意識到nn比iiii的可能性高得多。

  隨著(zhù)這樣的改進(jìn),OCR終于能夠自行閱讀部分文本了。該團隊決定為其提供一些來(lái)自梵蒂岡秘密歸案館的資料。這是一份超過(guò)18000頁(yè)的檔案集合,其中包括寫(xiě)給歐洲國王的信件、關(guān)于法律問(wèn)題的裁決以及其它信件。

  最初的結果有好有壞。在迄今為止的全部轉錄文本中,有三分之一文檔中包含一處或多處拼寫(xiě)錯誤——意味著(zhù)OCR作出了錯誤的判斷。然而,該軟件仍然帶來(lái)了高達96%的手寫(xiě)字母判斷準確率。Merialdo表示,即使是“不完美的轉錄結果,亦可提供關(guān)于手稿內容及背景的大量有價(jià)值信息。”

  經(jīng)過(guò)對AI更專(zhuān)業(yè)的訓練后,它可以識別各大文明的古代文獻并電子化。

  所以,為了給AI提升難度,青銅銘文了解一下?

人工智能:破解梵蒂岡神秘卷宗之謎,以后青銅銘文也交給 AI 來(lái)識別好了!

  梵蒂岡秘密檔案館(Vatican Secret Archives):由教皇保羅五世(Pope Paul V)主導創(chuàng )立,是歐洲教會(huì )中收藏檔案最豐富,最古老的檔案館。梵蒂岡秘密檔案館擁有著(zhù)可追溯于1200年之前的總長(cháng)達53英里的書(shū)架,其中保存著(zhù)各種古籍、歷史事件檔案、教皇的私人信件以及一些有關(guān)超自然現象和神秘學(xué)的資料。梵蒂岡秘密檔案館收錄了許多重要史料,除了將 Martin Luther 逐出教會(huì )的《教皇詔書(shū)》之外,還包括蘇格蘭瑪麗女王被處決之前發(fā)給教皇西克斯五世的函件。



關(guān)鍵詞: 人工智能

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>