AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox

Crystalcxt

發(fā)布于 2024-6-3 09:33

瀏覽

0收藏

雖然多模態(tài)大模型都能挑西瓜了，但理解復雜文檔方面還是差點意思。

面對文字密集、多欄混排等文檔時往往力不從心，區(qū)域級別的細粒度理解，就更是無從談起了。

最近，曠視團隊打造了一支多模態(tài)大模型的“點讀筆”——Fox，輕松實現(xiàn)對8頁文檔（中英混合，單欄多欄格式混合的極端場景）的交互式感知理解。

AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

對于信息密集的PDF文檔，F(xiàn)ox支持高可控性的細粒度理解，比如在用戶感興趣區(qū)域內(nèi)進行文字識別、段落翻譯以及頁面內(nèi)部的圖片內(nèi)容描述等。

論文中，團隊進一步突破了對于文檔的視覺感知理解的上限，高密度的信息被真正壓縮，LVLM真正地“看”懂圖，才能真正做好、做出能用的文檔多模大模型。

正所謂“一圖勝千言”—— one image token >> one text token。

AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

接下來，看看Fox在實戰(zhàn)中表現(xiàn)如何？

中英混排，單欄多欄組合都不怕

對于中英混合、單欄多欄混合的8頁PDF文檔，可實現(xiàn)任意區(qū)域的OCR：

AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

下圖左側(cè)展示了8頁文檔內(nèi)跨頁的VQA，右側(cè)展示了雙欄中文頁面的前景OCR。

AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

雙欄密集英文頁面的前景OCR：

AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

在頁面內(nèi)圖片描述方面，F(xiàn)ox能給出文檔內(nèi)內(nèi)容關(guān)聯(lián)的回答（young Dual Language Learners）。

當然Fox還支持line-level OCR，以及對RoI區(qū)域的翻譯、總結(jié)等。

AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

Fox可以結(jié)合頁面內(nèi)文字，認識到這是一張關(guān)于global seismic hazards的圖。此外，F(xiàn)ox還支持RoI內(nèi)的latex格式轉(zhuǎn)換，例如下面的table轉(zhuǎn)latex。Fox還支持更加靈活的顏色引導的RoI區(qū)域OCR。

AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

對于卡通繪本，也可以哪里不會點哪里：

AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

電影海報和自然場景的對話問答，F(xiàn)ox給出了非常有趣的答案（根據(jù)電影海報下面的文字給出了角色來源）：

AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

那么Fox是如何做到這些的呢？

多詞表協(xié)同，多頁面文檔統(tǒng)一打包

在細粒度文檔理解上，F(xiàn)ox有著三大創(chuàng)新：

精準定位

Fox引入了一系列基于位置的文本提示，如點擊位置、拖動框、涂色框等。這使得模型可以直接定位到感興趣的任意區(qū)域，而不受文檔格式的限制。同時，F(xiàn)ox還把全頁OCR重新定義為”前景聚焦”任務，進一步增強了對密集文字的感知。

多視覺詞表協(xié)同

為了更好地理解圖文混排頁面，F(xiàn)ox采用了兩個不同特長的視覺詞表——CLIP主攻自然圖像，Vary專攻人工文檔。但單純疊加兩種數(shù)據(jù)，往往會造成視覺偏置。為此，F(xiàn)ox合成了大量含混合視覺元素的數(shù)據(jù)，迫使兩個視覺分支充分協(xié)作。

頁面打包

得益于高壓縮率(每頁1024×1024圖像對應256個圖像token)，F(xiàn)ox將多頁面文檔統(tǒng)一打包輸入。這不僅讓跨頁面的上下文理解成為可能，也大幅降低了計算開銷。值得一提的是，這種打包微調(diào)模式并不需要重新訓練視覺詞匯。

在這些創(chuàng)新基礎(chǔ)上，F(xiàn)ox模型結(jié)構(gòu)如圖所示。

AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態(tài)大模型Fox-AI.x社區(qū)

Fox支持單頁/多頁文檔圖像輸入，所有圖像的image token被統(tǒng)一到一個sequence中進行多頁文檔理解。團隊設計了基于point、color、box的prompt，來實現(xiàn)在文檔頁面上聚焦任意位置。團隊合成了圖文交織的文檔數(shù)據(jù)，來充分催化兩個視覺詞表，以更好地適用于實際文檔應用場景。

此外，為了促進對文檔細粒度理解的研究，作者還打造了一個中英雙語的benchmark，已經(jīng)開源了數(shù)據(jù)和評測代碼，共包含以下9種任務：