全國首批 阿里達摩院文檔AI通過信通院權威評測
8月16日,中國信通院在可信AI峰會上發布智能文檔處理首輪評測結果,阿里達摩院文檔智能平臺表現優異,成為全國首批獲得“可信AI認證”的文檔AI產品。文檔AI能識別和理解票據、合同、表格等各種復雜文檔,是業界公認的高度難技術之一,阿里達摩院已構建出完整的技術棧,持續引領業界方向。
中國信通院從2018 年起開始建設“可信AI”評測體系,逐漸成為國內人工智能權威評測體系,覆蓋產品服務能力、應用成熟度和可信風險三大類。今年中國信通院首次針對智能文檔處理(IDP)發起評測,通過百余項關鍵指標進行全方位評估,達摩院文檔AI在技術能力、產品能力、應用能力三項上均獲得最高的5級評價,表現優異。 信通院指出,達摩院文檔AI功能完備,場景豐富,行業覆蓋廣,且具備較高的準確率、可接受度總體較高。
據介紹,文檔AI是OCR(光學字符識別)技術的進一步升級。傳統OCR主要針對固定版式下的文字識別,難以應對復雜情況。文檔AI能夠分析各種隨機版式,識別文檔中的層級和結構關系,甚至理解復雜的表格…由于任務復雜多樣,文檔AI需要深度融合自然語言處理和計算機視覺,一直是業界公認的高難度技術之一。
阿里達摩院早在2019年就率先提出基于圖模型的多模態文檔信息抽取方案,引領業界發展方向;目前已構建出完整的文檔AI技術棧,除了文檔核心處理技術外,還包括底層的電子文檔解析、OCR以及自學習平臺。同時,達摩院還在探索下一代文檔智能技術,提出了多模態文檔理解模型Bi-VLDoc,首次通過不同模態信號交叉監督、不同模態強制混合注意力,實現了視覺-語言的雙向精準對齊,在業界四個代表性的文檔理解數據集中均取得最佳模型效果(SOTA)。
達摩院在四個代表性數據集上創造了新SOTA
據了解,達摩院文檔AI支持合同、票據、報表等各種文檔內容的自動識別、提取、分類、整合及校驗,已廣泛應用于海關、法律、醫療、金融等行業,是企業數字化的重要支撐技術之一。以海關報關業務為例,它在上海、寧波等五大港區落地,讓企業報關人員免去了繁復的手工錄入。相關系統運行兩年多來,已處理超過兩百萬票報關業務,為報關企業提效3.5倍。此外,達摩院文檔AI還應用于盲文識別,將盲文翻譯成漢字和數字,已落地浙江省盲人學校,助力普惠教育。
AI自動生成報關單
AI翻譯盲文數學試卷
據介紹,阿里巴巴持續重點投入文檔AI在內的人工智能前沿研究。國際權威研究機構Gartner最新的《云AI開發者服務關鍵能力報告》顯示,阿里巴巴在語言AI領域排名全球第二,創下中國企業最好成績。