沉寂很久的Mistral AI推出號稱世界最強OCR
歐洲AI明星公司Mistral AI 今日發布 Mistral OCR,一款號稱“世界最佳文檔理解 API”的全新產品。
Mistral OCR 是一款光學字符識別(OCR)API,但它遠不止于簡單的文字識別。與其他模型不同,Mistral OCR 能夠全面理解文檔的每一個元素,包括媒體、文本、表格、公式等,并展現出前所未有的準確性和認知能力。它支持圖像和 PDF 作為輸入,并能從中提取出有序的、交錯的文本和圖像內容。
這種強大的理解能力使得 Mistral OCR 成為與 RAG(檢索增強生成)系統結合使用的理想模型,尤其擅長處理多模態文檔,例如幻燈片或復雜的 PDF 文件。
亮點
Mistral OCR 具備以下六大亮點功能:
1. 頂尖的復雜文檔理解能力: Mistral OCR 擅長理解復雜的文檔元素,包括交錯的圖像、數學表達式、表格以及 LaTeX 等高級排版格式。這使得模型能夠更深入地理解富文檔,例如包含圖表、圖形、公式和圖像的科學論文。
2. 原生多語言和多模態支持: Mistral OCR 天生具備多語言和多模態處理能力,能夠處理多種語言和不同類型的內容。
3. 頂級的基準測試表現: Mistral OCR 在多項基準測試中都取得了領先地位,展現了其卓越的性能。
4. 同類產品中最快速度: Mistral OCR 的輕量化設計使其速度遠超同類模型,單節點每分鐘可處理高達 2000 頁的文檔。快速的處理能力確保了即使在高吞吐量環境下也能持續學習和改進。
5. “文檔即提示”的結構化輸出: Mistral OCR 創新性地引入了“文檔即提示”的概念,用戶可以使用文檔作為提示,實現更強大、更精確的指令。它允許用戶從文檔中提取特定信息,并將其格式化為 JSON 等結構化輸出。用戶可以將這些結構化輸出串聯到下游函數調用和構建代理中。
6. 選擇性提供自托管部署: 對于有嚴格數據隱私要求的組織,Mistral OCR 提供自托管選項。這確保了敏感或機密信息在您自身的基礎設施內保持安全,符合監管和安全標準。
Mistral OCR 與其他主流 OCR 產品的性能對比,包括 Google Document AI、Azure OCR、Gemini 系列模型以及 GPT-4o。在總體準確率、數學公式識別、多語言處理等方面,Mistral OCR 均表現出色,尤其在 Mistral OCR 2503 版本中,各項指標都達到了新的高度。
體驗 Mistral OCR
Mistral OCR 的功能可以在https://chat.mistral.ai/chat上免費試用。想要體驗 API 的用戶,可以訪問http://console.mistral.ai/