編輯 | 言征
出品 | 51CTO技術棧(微信號:blog51cto)
全球約90%的組織數據以文檔形式存儲,但大模型對于文檔的理解能力還有一塊拼圖有待完整:多模態文檔的理解性能還做得不夠。
今天凌晨,低調了許久的歐洲AI公司 Mistral 冷不防推出了一款新作——Mistral OCR。
Mistral OCR是一款專供OCR的API,它為復雜文檔理解設定了新的標準。與其他模型不同,Mistral OCR能夠以前所未有的準確性和認知能力理解文檔中的每個元素——媒體、文本、表格和公式。它接受圖像和PDF作為輸入,并提取有序的交錯文本和圖像內容。
因此,Mistral OCR是與檢索增強生成(RAG)系統結合使用的理想模型,能夠處理多模態文檔(如幻燈片或復雜的PDF文件)。
圖片
復雜文檔理解的最新技術
Mistral OCR在理解復雜文檔元素方面表現出色,包括交錯的圖像、數學表達式、表格以及高級布局(如LaTeX格式)。該模型能夠深入理解豐富的文檔,例如包含圖表、圖形、公式和插圖的科學論文。
下面展示了PDF文件及其相應OCR輸出的并排對比。將鼠標懸停在滑塊上以切換輸入和輸出。
右側是Mistral OCR識別結果
圖片
頂級基準測試表現
在嚴格的基準測試中,Mistral OCR始終優于其他領先的OCR模型。其在文檔分析的多個方面的卓越準確性如下所示。該公司從文檔中提取嵌入的圖像和文本,而下面比較的其他大型語言模型(LLM)不具備此功能。為了公平比較,研究人員在內部的“僅文本”測試集上評估它們,該測試集包含各種出版論文和網絡上的PDF文件;如下所示:
圖片
原生多語言
自Mistral成立以來,一直致力于通過公司的模型服務全球,并努力在其產品中實現多語言能力。Mistral OCR將這一能力提升到了新的水平,能夠解析、理解和轉錄全球各大洲的數千種文字、字體和語言。這種多功能性對于處理來自不同語言背景的文檔的全球組織以及服務于特定市場的本地企業都至關重要。
模型生成中的模糊匹配測試如下:
圖片
按語言劃分的基準測試:
圖片
同類中速度最快
Mistral OCR比同類中的大多數模型更輕量,其處理速度顯著快于同類產品,單節點每分鐘可處理多達2000頁。快速處理文檔的能力確保了即使在高吞吐量環境中也能持續學習和改進。
文檔即提示,結構化輸出
Mistral OCR還引入了將文檔用作提示的使用方式,從而實現更強大、更精確的指令。這一功能使用戶能夠從文檔中提取特定信息,并將其格式化為結構化輸出(如JSON)。用戶可以將提取的輸出鏈接到下游功能調用中,并構建智能代理。
按需提供自托管選項
對于數據隱私要求嚴格的組織,Mistral OCR提供自托管選項。這確保了敏感或機密信息保留在您自己的基礎設施內,符合監管和安全標準。
如果想本地部署和探索,可以聯系官網https://mistral.ai/。
應用場景
Mistral的測試用戶們正在通過這款工具將龐大的文檔庫轉化為行動和解決方案,提升其組織的知識水平。該技術在以下關鍵應用場景中產生了顯著影響:
? 數字化科學研究:領先的科研機構正在嘗試使用Mistral OCR將科學論文和期刊轉化為AI就緒格式,使其能夠被下游智能引擎訪問。這顯著加快了協作速度,并加速了科學工作流程。
? 保護歷史和文化遺產:作為文化遺產的守護者,組織和非營利機構正在使用Mistral OCR對歷史文件和文物進行數字化,確保其得以保存,并使其能夠被更廣泛的受眾訪問。
? 優化客戶服務:客戶服務部門正在探索使用Mistral OCR將文檔和手冊轉化為索引化的知識,減少響應時間,提升客戶滿意度。
? 使設計、教育、法律等領域的文獻AI就緒:Mistral OCR還幫助公司把技術文獻、工程圖紙、講課筆記、演示文稿
圖片
第一批試用的網友已經對Mistral OCR 做了基準測試,在375個LLM評判標準中,Mistral獲得了可以比肩Marker的高分4.32分。
其實,大模型在多模態文檔理解中常見的兩個問題:一、幻覺,二、文本丟失。
Mistral現在可以說把幻覺降到了更低,但網友反饋依舊存在幻覺的情況。當然,Mistral 也并非完美。
免費體驗,API定價親民
據官方發布的消息,Mistral OCR已經被該公司作為Le Chat平臺上數百萬用戶文檔理解的默認模型,并推出名為mistral-ocr-latest的API,定價為每1000頁1美元(批量推理時每美元可處理的頁數大約翻倍)。
同時,該模型的API也已在其開發者平臺la Plateforme上線,并即將推出到Mistral的云服務和推理合作伙伴,以及本地部署環境中。
如果想要體驗,大家可以在 Mistral 的 Chat 官網上免費試用 Mistral OCR 的功能。如果想嘗試 API,可以前往他們 console 網址。
體驗鏈接:https://chat.mistral.ai/chat/
API體驗地址:http://console.mistral.ai/