《IDC Innovator:智能文檔處理(IDP),2022》正式發(fā)布
隨著(zhù)數字化轉型的不斷推進(jìn),企業(yè)數據量呈現出爆炸式增長(cháng)。IDC Global DataSphere顯示,2021年,全球數據總量達到了84.5ZB,預計到2026年,全球結構化與非結構化數據總量將達到221.2ZB。在快速增長(cháng)的數據中,由于格式復雜、標準多樣,非結構化數據處理起來(lái)既困難又耗時(shí)。面對海量非結構化數據,如果沒(méi)有自動(dòng)化解決方案,人工手動(dòng)處理將面臨巨大挑戰。智能文檔處理可以把關(guān)鍵信息從半結構化/非結構化數據中提取出來(lái),形成結構化數據,進(jìn)一步實(shí)現業(yè)務(wù)流程的端到端自動(dòng)化。
本文引用地址:http://dyxdggzs.com/article/202301/442663.htmIDC定義的智能文檔處理(IDP),是指能夠從各種文檔格式中捕捉、提取和處理數據,它利用自然語(yǔ)言處理 (NLP)、計算機視覺(jué)(CV)、深度學(xué)習(DL)和機器學(xué)習 (ML) 等人工智能技術(shù),對相關(guān)信息進(jìn)行分類(lèi)、歸類(lèi)和提取,并對提取數據進(jìn)行驗證。
本次研究IDC對眾多安全廠(chǎng)商和最終用戶(hù)進(jìn)行了深入訪(fǎng)談,發(fā)現最終用戶(hù)在其數據安全建設前或建設過(guò)程中普遍面臨數據安全建設無(wú)從入手、摸清家底難、分類(lèi)分級落地難、對于數據安全風(fēng)險和建設成果的無(wú)感知以及缺乏專(zhuān)業(yè)的數據安全建設治理人才等問(wèn)題。
針對以上痛點(diǎn),IDC給出以下幾點(diǎn)建議供技術(shù)買(mǎi)家參考:
1.多模態(tài):能夠利用NLP/CV/OCR等多模態(tài)算法對全域非結構化大數據進(jìn)行充分且統一的結構化處理和精準索引;
2.超大規模預訓練:感知+決策完整智能化流水線(xiàn)閉環(huán),讓模型在專(zhuān)業(yè)領(lǐng)域擁有接近技能專(zhuān)家的性能表現及復雜工作場(chǎng)景的替代能力;
3.Auto Automation:將遷移學(xué)習和自動(dòng)機器學(xué)習應用到智能文檔領(lǐng)域,大幅降低整體擁有成本和定制化效率,并提供跨組織、跨領(lǐng)域的規?;瘮U展能力和持續學(xué)習迭代能力。
智能文檔處理技術(shù)的應用價(jià)值主要在于:
1.構建統一的面向全域非結構化數據處理的基礎設施能力避免重復投資
2.可帶來(lái)直觀(guān)的生產(chǎn)力替代與人均產(chǎn)能提升,滿(mǎn)足降本增效剛需;
3.提升部分行業(yè)/業(yè)務(wù)/流程核心生產(chǎn)要素,實(shí)現重構與智能化升級。目前在金融、政府和大型企業(yè)已獲得技術(shù)驗證并處于業(yè)務(wù)需求爆發(fā)的早期階段,隨著(zhù)與應用和流程自動(dòng)化的深度整合,潛在的應用場(chǎng)景廣泛普及空間較大。
本報告聚焦智能文檔處理領(lǐng)域,介紹目前在技術(shù)、商業(yè)模式等方面有一定創(chuàng )新性的中國公司。本報告提供了北京數據項素智能科技有限公司、來(lái)也科技(北京)有限公司、全面智能(廈門(mén))科技有限公司三家企業(yè)的研究概述(排名不分先后),體現了各廠(chǎng)商在智能文檔處理方面的差異化特征。
分析師觀(guān)點(diǎn)
IDC中國人工智能高級分析師程蔭表示,智能文檔處理(IDP)技術(shù)能夠更高效地將非結構化數據轉換成結構化數據,幫助企業(yè)解決數據方面的挑戰,目前已處于業(yè)務(wù)需求爆發(fā)的早期階段,隨著(zhù)與應用和流程自動(dòng)化的深度整合,潛在的應用場(chǎng)景將變得越來(lái)越普及,各個(gè)行業(yè)用戶(hù)應當積極關(guān)注。技術(shù)供應商也應升級多模態(tài)、超大規模預訓練模型、圖神經(jīng)網(wǎng)絡(luò )、自動(dòng)化等方面的底層能力,給行業(yè)用戶(hù)帶來(lái)更具差異化的產(chǎn)品和服務(wù),幫助企業(yè)實(shí)現數據處理的效率提升和成本節約?!?/p>
評論