華科開源MonkeyOCR:3B小模型,居然把GPT-4o給比下去了
看到這個標題,你可能會想"又一個號稱吊打GPT的模型"。但這次不一樣,華中科技大學真的搞出了點名堂。
前幾天,華科和金山辦公聯合開源了一個叫MonkeyOCR的文檔解析模型。聽名字挺可愛,但實力可不含糊。
圖片
這個只有3B參數的小模型,在文檔解析任務上竟然超越了GPT-4o、Gemini 2.5 Pro這些巨頭的產品。
我特意去試了試他們的在線demo,確實有兩把刷子。
圖片
最讓我印象深刻的是它處理公式的能力。你知道,數學公式一直是OCR的老大難問題,那些復雜的分式、積分符號,傳統OCR經常識別錯。但MonkeyOCR在公式識別上比MinerU提升了15%,這個進步挺明顯的。
表格處理也很出色。我測試了幾張復雜的財務報表,它不僅能準確識別表格內容,還能保持原有的結構關系。相比之下,很多工具要么識別不準,要么把表格結構搞亂了。
從技術角度看,MonkeyOCR創新在于它的SRR三元組設計。簡單說就是把文檔解析分成三個問題:"Where is it?"(結構檢測)、"What is it?"(內容識別)、"How is it organized?"(關系理解)。
這種設計很聰明。傳統pipeline方法容易累積錯誤,端到端大模型又太笨重。MonkeyOCR找了個平衡點,既保證精度又控制了計算開銷。
整體表現上,MonkeyOCR比MinerU平均提升了5.1%,在公式識別上提升15%,表格處理上提升8.6%。
更關鍵的是效率。MonkeyOCR處理多頁文檔的速度是0.84頁/秒,MinerU是0.65頁/秒,而Qwen2.5-VL-7B只有可憐的0.12頁/秒。
這意味著什么?如果你要處理100頁的PDF,MonkeyOCR只需要2分鐘,而Qwen需要14分鐘。在實際應用中,這種速度差異是致命的。
圖片
還有一個細節讓我挺驚喜:這個3B的模型可以在單張RTX 3090上跑。要知道,現在動不動就幾十GB的大模型,普通人根本跑不起來。MonkeyOCR這種"小而美"的設計,讓更多開發者能夠實際使用。
當然,也不是完美的。我在測試中發現,對于一些非常規排版的文檔,比如古籍或者手寫體,識別效果還是有限的。不過這也正常,畢竟這些場景的數據相對稀少。
從訓練數據看,團隊構建了MonkeyDoc數據集,包含390萬個實例,覆蓋十多種文檔類型。這個數據規模在文檔解析領域算是相當不錯了。
華科在AI視覺這塊確實有兩把刷子。
他們之前的TextMonkey、Mini-Monkey都在OCR領域有不錯的表現。這次的MonkeyOCR可以看作是這個系列一個重要迭代,技術越來越成熟了。
對于想要部署文檔解析服務的公司來說,MonkeyOCR提供了一個很有吸引力的選擇。既有不錯的精度,又能控制成本,訓練也只需要8張RTX 3090,門檻不算太高。
項目已經開源,GitHub上已經有2.5K的star了。代碼、模型都能免費下載,還提供了在線demo可以直接測試。
只是有一點要注意,在線demo對大圖片的處理似乎有些bug,測試時候最好控制下圖片尺寸。
總的來說,MonkeyOCR是個不錯的開源項目,特別是對于需要高效文檔解析的場景。雖然不敢說真的"吊打"所有商業產品,但確實在某些方面有自己的優勢。