千頁只需7塊錢,Mistral發布世界最強文件掃描API,實測仍有缺陷
法國大模型獨角獸 Mistral AI 進軍 OCR(光學字符識別)領域了。
一出手就是號稱「世界上最好的 OCR 模型」!
新產品 Mistral OCR 是一種光學字符識別 API,它為文檔理解樹立了新標準。與其他模型不同,Mistral OCR 能夠以前所未有的準確度和認知能力理解文檔的每個元素(媒體、文本、表格、公式)。它以圖像和 PDF 作為輸入,并從有序交錯的文本和圖像中提取內容。
因此,Mistral OCR 稱得上一種理想的模型,可以與以多模式文檔(如幻燈片或復雜 PDF)作為輸入的 RAG 系統結合使用。
從現在開始,Mistral OCR 功能可以在 Le Chat 上免費試用。Mistral AI 已經將它作為 le Chat 上數百萬用戶的默認文檔理解模型,并以 1000 頁 / 美元的價格發布了 API「mistral-ocr-latest」。目前,該 API 已經在開發者套件 la Plateforme 上提供,并將很快提供給 Mistral AI 的云和推理合作伙伴,同時可以有選擇地本地部署。
對復雜文檔實現 SOTA 理解
Mistral OCR 擅長理解復雜的文檔元素,包括交錯圖像、數學表達式、表格和高級布局(如 LaTeX 格式)。該模型可以更深入地理解豐富的文檔,尤其是包含圖表、圖形、公式和數字的科學論文。
比如 Alphafold 3 的 OCR 識別效果,從給定 PDF 中將文本、圖像提取到 markdown 文檔。
下面將 PDF 和對應的 OCR 輸出結果進行了并排比較。
比如數學公式:
數學_副本.jpg
比如阿拉伯文字:
阿拉伯文字_副本.jpg
基準測試成績全方位第一
Mistral OCR 在嚴格的基準測試中始終優于其他領先的 OCR 模型,其在文檔分析的多個方面都表現出色。Mistral AI 從文本文檔中提取嵌入圖像和文本,不過進行比較的其他 LLM 不具備此功能。
因此,為了公平比較,Mistral AI 在包含各種發表論文的內部「僅文本」測試集以及網絡 PDF 上進行了性能測試。
支持原生多語言
自成立以來,Mistral AI 一直渴望用自己的模型服務全世界,因此努力在產品中實現多語言功能。
Mistral OCR 將這一目標提升到了一個新水平,能夠解析、理解和轉錄各大洲的數千種腳本、字體和語言。對于需要處理來自不同語言背景的文檔的全球組織以及服務小眾市場的超本地化企業而言,這種通用性至關重要。
在「Fuzzy Match in Generation」(生成模糊匹配)指標比較中,Mistral OCR 獲得了第一。
在各種語言的比較中,Mistral OCR 同樣超越了 Azure OCR 和 Google Doc AI。
同類產品中速度最快
Mistral OCR 比同類產品中的大多數都更輕量,速度也明顯快于它們,并且在單個節點上每分鐘可以處理 2000 多頁。這一快速處理文檔的能力確保即使在高吞吐量環境中也能持續學習和改進。
文檔即提示、結構化輸出
Mistral OCR 還引入了使用文檔作為提示的功能,從而實現了更強大、更精確的指令遵循。此功能允許用戶從文檔中提取特定信息并將其格式化為結構化輸出,例如 JSON。用戶還可以將提取的輸出鏈接到下游函數調用和構建智能體中。
自行托管
最后,對于具有嚴格數據隱私要求的組織,Mistral OCR 提供了自行托管選項。這可確保敏感或機密信息在組織內部的基礎設施內保持安全,從而符合監管和安全標準。
實測:Mistral OCR 很好,但也有局限
面對 Mistral AI 號稱的「全球最好 OCR 模型」,Pulse AI 團隊進行了一番測試,結論是:確實很好,但尚未完全為企業使用做好準備。
Mistral OCR 絕對超越了一些前沿 LLM,但在真實商業文檔中出現了一些限制。
圖源:https://x.com/ritvikpandey21/status/1897800421357588546
對于財務文檔:Mistral OCR 難以處理復雜的表格,出現了 17% 的列錯位、±1.5% 的精度偏差以及丟失了表示負值的關鍵括號。
對于法律文檔:復選框檢測基本不存在,部分層次結構丟失,多行表格單元格合并或切斷。
正如 Mistral AI 博客中所說,他們正在收集用戶的反饋,并希望未來幾周 Mistral OCR 繼續變得更好。
博客地址:https://mistral.ai/fr/news/mistral-ocr