成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

千頁只需7塊錢,Mistral發布世界最強文件掃描API,實測仍有缺陷

人工智能 新聞
Mistral OCR 稱得上一種理想的模型,可以與以多模式文檔(如幻燈片或復雜 PDF)作為輸入的 RAG 系統結合使用。

法國大模型獨角獸 Mistral AI 進軍 OCR(光學字符識別)領域了。

一出手就是號稱「世界上最好的 OCR 模型」!

image.png

新產品 Mistral OCR 是一種光學字符識別 API,它為文檔理解樹立了新標準。與其他模型不同,Mistral OCR 能夠以前所未有的準確度和認知能力理解文檔的每個元素(媒體、文本、表格、公式)。它以圖像和 PDF 作為輸入,并從有序交錯的文本和圖像中提取內容。

因此,Mistral OCR 稱得上一種理想的模型,可以與以多模式文檔(如幻燈片或復雜 PDF)作為輸入的 RAG 系統結合使用。

從現在開始,Mistral OCR 功能可以在 Le Chat 上免費試用。Mistral AI 已經將它作為 le Chat 上數百萬用戶的默認文檔理解模型,并以 1000 頁 / 美元的價格發布了 API「mistral-ocr-latest」。目前,該 API 已經在開發者套件 la Plateforme 上提供,并將很快提供給 Mistral AI 的云和推理合作伙伴,同時可以有選擇地本地部署。

對復雜文檔實現 SOTA 理解

Mistral OCR 擅長理解復雜的文檔元素,包括交錯圖像、數學表達式、表格和高級布局(如 LaTeX 格式)。該模型可以更深入地理解豐富的文檔,尤其是包含圖表、圖形、公式和數字的科學論文。

比如 Alphafold 3 的 OCR 識別效果,從給定 PDF 中將文本、圖像提取到 markdown 文檔。

下面將 PDF 和對應的 OCR 輸出結果進行了并排比較。

比如數學公式:

數學_副本.jpg數學_副本.jpg

比如阿拉伯文字:

阿拉伯文字_副本.jpg阿拉伯文字_副本.jpg

基準測試成績全方位第一

Mistral OCR 在嚴格的基準測試中始終優于其他領先的 OCR 模型,其在文檔分析的多個方面都表現出色。Mistral AI 從文本文檔中提取嵌入圖像和文本,不過進行比較的其他 LLM 不具備此功能。

因此,為了公平比較,Mistral AI 在包含各種發表論文的內部「僅文本」測試集以及網絡 PDF 上進行了性能測試。

支持原生多語言

自成立以來,Mistral AI 一直渴望用自己的模型服務全世界,因此努力在產品中實現多語言功能。

Mistral OCR 將這一目標提升到了一個新水平,能夠解析、理解和轉錄各大洲的數千種腳本、字體和語言。對于需要處理來自不同語言背景的文檔的全球組織以及服務小眾市場的超本地化企業而言,這種通用性至關重要。

在「Fuzzy Match in Generation」(生成模糊匹配)指標比較中,Mistral OCR 獲得了第一。

在各種語言的比較中,Mistral OCR 同樣超越了 Azure OCR 和 Google Doc AI。

同類產品中速度最快

Mistral OCR 比同類產品中的大多數都更輕量,速度也明顯快于它們,并且在單個節點上每分鐘可以處理 2000 多頁。這一快速處理文檔的能力確保即使在高吞吐量環境中也能持續學習和改進。

文檔即提示、結構化輸出

Mistral OCR 還引入了使用文檔作為提示的功能,從而實現了更強大、更精確的指令遵循。此功能允許用戶從文檔中提取特定信息并將其格式化為結構化輸出,例如 JSON。用戶還可以將提取的輸出鏈接到下游函數調用和構建智能體中。

自行托管

最后,對于具有嚴格數據隱私要求的組織,Mistral OCR 提供了自行托管選項。這可確保敏感或機密信息在組織內部的基礎設施內保持安全,從而符合監管和安全標準。

實測:Mistral OCR 很好,但也有局限

面對 Mistral AI 號稱的「全球最好 OCR 模型」,Pulse AI 團隊進行了一番測試,結論是:確實很好,但尚未完全為企業使用做好準備。

Mistral OCR 絕對超越了一些前沿 LLM,但在真實商業文檔中出現了一些限制。

圖源:https://x.com/ritvikpandey21/status/1897800421357588546

對于財務文檔:Mistral OCR 難以處理復雜的表格,出現了 17% 的列錯位、±1.5% 的精度偏差以及丟失了表示負值的關鍵括號。

對于法律文檔:復選框檢測基本不存在,部分層次結構丟失,多行表格單元格合并或切斷。

正如 Mistral AI 博客中所說,他們正在收集用戶的反饋,并希望未來幾周 Mistral OCR 繼續變得更好。

博客地址:https://mistral.ai/fr/news/mistral-ocr


責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-09-13 22:25:52

手機缺陷技術

2025-03-10 18:50:57

2025-03-07 10:23:03

2024-05-21 11:35:48

阿里云通義千問

2023-03-02 15:46:13

2010-09-08 09:17:24

VMworld 201

2015-10-21 14:53:24

微信賺錢用戶

2025-05-09 09:02:00

2017-08-15 16:45:14

鍵盤薄膜鍵盤機械鍵盤

2018-09-13 13:54:41

2014-12-28 09:05:28

2021-03-25 12:32:14

樹莓派Linux代碼

2016-04-25 15:38:27

老司機VR看片

2015-03-30 00:56:48

2019-12-25 14:15:02

開發技能代碼

2020-07-08 09:27:01

公司短信平臺

2022-12-16 15:11:39

AI模型

2016-03-22 02:41:43

iphone se蘋果SE

2020-11-03 10:45:53

人工智能AIAI偏差

2010-07-20 10:14:22

蘋果天線門
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲成人一区二区三区 | 欧美专区在线 | 丁香六月激情 | 日本在线免费看最新的电影 | 日韩在线播放视频 | 成人aaa视频| av免费网站在线观看 | 国产精品日韩高清伦字幕搜索 | 欧洲妇女成人淫片aaa视频 | 中文字幕av高清 | 国产精品美女久久久 | 日韩免费成人av | 亚洲免费观看视频网站 | 黄色毛片免费视频 | 欧美一级特黄aaa大片在线观看 | 亚洲一区在线免费观看 | 亚洲国产片 | 男女羞羞网站 | 亚洲 欧美 另类 综合 偷拍 | 91麻豆精品一区二区三区 | 亚洲精品丝袜日韩 | 久久久久久国产精品免费免费狐狸 | 成人视屏在线观看 | av在线免费观看不卡 | 黄色欧美在线 | 黑人巨大精品 | 一区在线视频 | 91亚洲国产| 黄免费看 | 日本电影网站 | 国产精品视频免费播放 | 亚洲综合国产 | 国产精品极品美女在线观看免费 | 免费a网 | 国产精品jizz在线观看老狼 | 亚洲一区二区中文字幕 | 日韩精品在线一区二区 | 亚洲成人中文字幕 | 国产一区二区三区视频免费观看 | 国产综合视频 | 成人精品久久久 |