TextCoT:放大增強型多模態富文本圖像理解 原創
摘要:大型多模態模型(Large Multimodal Models, LMMs)的出現引發了旨在利用其卓越推理能力的研究熱潮。然而,在理解富含文本的圖像方面,要充分發揮LMMs的潛力仍然存在挑戰,現有的方法在有效處理高分辨率圖像方面面臨困難。為此,我們提出了TextCoT,這是一種針對富含文本圖像理解的新穎連鎖思維(Chain-of-Thought)框架。TextCoT利用LMMs的圖片標注能力來把握圖像的整體情境,并利用其定位能力來檢查局部文本區域,從而實現全局和局部視覺信息的提取,促進了更精確的問題回答。技術上,TextCoT包含三個階段:圖像概覽、粗略定位和精細觀察。圖像概覽階段提供了對全局場景信息的全面理解,粗略定位階段則根據所提問題大致估算出含有答案的圖像區域。隨后,結合獲取的全局圖像描述,最終階段進一步審視特定區域以提供準確答案。我們的方法無需額外訓練,即插即用。在多個先進的LMMs上,針對一系列富含文本的圖像問答基準進行了廣泛實驗,結果顯示了我們方法的有效性和強大的泛化能力。代碼可于??https://github.com/bzluan/TextCoT??獲取。
1. 引言
近年來,大型語言模型(LLMs)領域的突破性進展以驚人的性能徹底改變了自然語言處理(NLP)領域,橫跨廣泛的任務。在基礎LLMs的基礎上,通過將視覺信息整合進LLMs,發展出了大型多模態模型(LMMs),使模型能夠從圖像和文本中同時獲取信息。關于LMMs的研究不斷改進模型架構、訓練數據和訓練策略等,從而在多種場景中提高了性能。在多模態理解領域中,富含文本的圖像研究代表了一個關鍵方向。與一般圖像理解相區別,此任務的挑戰在于模型需要同時理解圖像中交織的視覺和文本內容。此外,由于文本的存在,這類圖像通常具有更高的分辨率,比如文檔圖像[29]就是例子。
在富含文本的圖像理解領域,通用的大型多模態模型[32, 33, 63]往往表現不佳。這是因為此類任務的問題答案通常是文本形式的,且常位于圖像的局部區域,如在高分辨率圖像中識別汽車的車牌號。然而,現有LMMs的輸入分辨率通常被限制在448像素以下,這限制了它們有效處理這類查詢的能力。為了解決這個問題,一些方法選擇開發高分辨率的視覺編碼器[15]或將圖像分割成多個塊[30, 62]進行單獨的視覺特征編碼。然而,這些解決方案需要額外的訓練,并要求大量資源來收集和構建高分辨率的圖像-文本問答數據集。
在大型語言模型領域,基于連鎖思維(CoT)技術的研究旨在通過無需額外模型訓練的刻意推理步驟來克服問題,并已取得了顯著的性能提升。這些技術可以直接應用于我們富含文本的圖像理解領域。如圖1(b)所示,代表性方法ZS-CoT[22]將逐步推理的過程作為模型的新輸入,從而獲得更準確的響應。然而,ZS-CoT[22]并未實質上解決該任務需要仔細檢查局部區域的問題。此外,CCoT[40]是一種針對LMMs優化的先進CoT方法,通過構建模擬物體間關系的場景圖(如圖1(c)所示)來增強一般場景下的問答能力。但是,CCoT[40]在富含文本的圖像上的表現欠佳,這歸因于構建文本實例的場景圖面臨的挑戰。
圖1展示了(a)基線LMM、(b)零樣本CoT [22]、(c)CCoT [40]以及(d)我們提出的TextCoT的流程對比。為了更好地理解富含文本的圖像,TextCoT利用LMMs的圖片描述能力和定位能力,分別把握圖像的整體情境和局部文本區域。
為了解決上述問題,本工作中我們提出了TextCoT,一種針對富含文本圖像理解的新穎連鎖思維框架。我們的想法靈感來源于人類的認知模式。具體而言,在富含文本且無法記住所有細節的情境下,人們很少主動預測要記憶哪個部分以備后續提問。相反,一種更直觀的策略是根據問題引導來掃描文本,鎖定可能包含答案的區域,然后詳細檢查這些細節以形成回答。為了模仿這種多模態思維過程,我們開發了TextCoT。技術上,我們的TextCoT包括三個階段:圖像概覽、粗略定位和精細觀察。圖像概覽的初始階段有助于全面掌握整體場景信息,隨后的粗略定位階段則根據提出的問題估計包含答案的圖像部分。接著,通過整合前期獲得的圖像全局描述,最后階段深入特定區域以提供精確答案。
為了驗證我們的TextCoT,我們在基于幾種先進LMMs的一系列富含文本的圖像問答基準數據集上進行了廣泛的實驗。定量和定性的結果均展現了我們方法的有效性和強大的泛化能力。我們的貢獻總結如下:
? 我們提出了TextCoT,一種針對富含文本圖像理解的新穎連鎖思維框架。TextCoT利用LMMs的定位能力來檢查特定答案區域,從而促進更準確和細致的問答。
? 我們嘗試從連鎖思維的角度解決富含文本圖像理解任務中的高分辨率視覺輸入問題。我們的方法無需額外訓練,即插即用。
? 我們基于幾種先進的LMMs,在一系列富含文本的圖像問答基準數據集上進行了廣泛的實驗,以驗證我們的方法。
2. 相關工作
我們的TextCoT是一種多模態連鎖思維方法,旨在通過有效利用大型多模態模型(LMMs)的能力來增強其在富含文本場景中的性能。接下來,我們首先回顧大型語言模型(LLMs)和LMMs的研究,然后討論針對LLMs和LMMs的連鎖思維(CoT)文獻。
大型語言模型(LLMs)。隨著Transformer架構強大潛力的展示,大型語言模型徹底改變了自然語言處理(NLP)領域。諸如BERT [14]和T5 [45]這樣的模型,采用編碼器-解碼器架構,為深入理解語言細微差別打下了基礎。GPT3 [7]以其解碼器為中心的設計,在少量樣本和零樣本學習場景中展現出卓越性能,證明了其在廣泛NLP任務上的適應性。PaLM [12]模型通過擴展模型參數和數據集范圍,推動了理解和生成能力的極限。InstructGPT [42]和ChatGPT [41]引入了基于人類反饋的微調和強化學習,顯著提高了交互質量。此后,像LLaMA [48]和Vicuna [11]這樣的開源模型繼續推進NLP的前沿基準,為未來研究開辟了新路徑。
大型多模態模型(LMMs)。為了將視覺知識融入大型語言模型,通過集成現有視覺-語言模型的視覺編碼器和LLMs的推理能力,開發出了大型多模態模型。通過改進預訓練對齊和指令微調,MiniGPT-4 [69]、LLaVA [32, 33]、InstructBLIP [13]和mPLUG-Owl [63]等眾多研究在各種視覺-語言任務上展示了顯著進步。一些研究 [9, 18, 43, 52]利用物體檢測和文本檢測數據增強了LMMs的定位能力并減少了幻覺。ShareGPT4V [10]通過提高模型標題數據質量,改善了圖像和文本模態之間的對齊。Vary [54]、V* [57]和DualFocus [8]通過改進模型架構和訓練框架進一步提升了LMMs的基準。
許多LMMs在富含文本的場景中表現不佳,這是由于密集的細粒度信息和高圖像分辨率。為了解決這一問題,UniDoc [16]和mPLUG-DocOwl [61]等研究利用文本相關視覺任務數據集來增強模型在文本豐富場景中的能力。Vary-toy [55]和Qwen-VL [4]通過訓練更大的視覺編碼器增強了對高分辨率圖像理解的能力。UReader [62]、Monkey [30, 35]采用了堆疊多個視覺編碼器的方法來增加模型的輸入分辨率。DocPedia [15]建議使用頻域視覺信息來擴展輸入分辨率同時減少令牌使用。這些方法顯著提高了模型的輸入分辨率,極大地增強了理解文本等細粒度細節的能力。盡管這些方法通過訓練更復雜的模型架構和視覺任務顯示出了出色的結果,但高質量視覺指令訓練數據的依賴仍然是一個重大挑戰。
思維鏈提示。一系列專注于連鎖思維(CoT)提示方法的研究揭示了大型語言模型的巨大潛力,同時也發現它們的性能由于不足的提示技術并未完全發揮。CoT方法在推理階段通過提示控制LLMs和LMMs,無需訓練或微調就能激發模型的推理潛能。CoT [56]、零樣本CoT [22]、CoT-SC [51]、TOT [60]和GOT [5]等研究揭示了LLMs推理能力的重大提升,奠定了連鎖思維提示的基礎。許多研究 [17, 26, 65]致力于精確操縱提示和訓練過程以增強視覺語言模型的推理能力。隨著LMMs的出現,許多研究聚焦于LMMs的CoT方法,以增強其推理能力。VidIL [53]、DDCoT [68]和Multimodal-CoT [67]利用LMMs的標注和推理能力取得了有希望的結果。CCoT [40]提出使用JSON格式生成場景圖,極大增強了LMMs對圖像中對象關系的理解。CoCoT [66]通過觀察多張圖像間的對比信息增強了LMMs的推理能力。一些研究 [27, 58]通過在圖像上添加網格和點矩陣來增強LMMs的檢測能力。
盡管這些工作在不同方面表現出色,它們各自都有缺點。常規的LMMs受限于低分辨率,在文本場景中表現不佳,因為它們無法捕捉到細部細節。高分辨率模型的設計、訓練和微調需要大量資源,并且經常導致在長文本對話和定位任務上的性能下降。當前的多模態CoT方法未能解決富含文本場景的關鍵問題,跨模態提示的探索也不足。這突顯了一個當前的研究空白:開發一種能夠跨視覺和文本模態進行推理的多模態CoT方法。
3. 方法
如圖2(左)所示,給定一個全局富含文本的圖像I_g和一個問題Q,一種直接的方法是指導LMMs生成答案A_f。然而,受視覺輸入粒度的限制,LMMs往往難以提供準確的回答。在這項工作中,我們提議利用LMMs檢查特定區域,從而促進更精確的問題回答。我們提出了TextCoT,一個針對富含文本圖像理解的新穎連鎖思維框架。圖2(右)展示了TextCoT的概覽。接下來,我們將介紹其三個階段,包括(1)圖像總覽、(2)粗略定位和(3)細粒度觀察。
3.1. 圖像總覽
我們的第一步旨在利用LMMs的圖像描述能力,生成一個既簡潔又全面的圖像描述,以此保留圖像中的整體信息。具體而言,如圖2所示,我們使用全局圖像I_g和描述提示P_c來指導LMM,從而獲得描述性答案A_c。這個A_c隨后將在細粒度觀察階段轉換成描述C,為回答給定問題提供全局上下文支持。
近期研究表明[[49, 64]],大型多模態模型產生的較長輸出往往會表現出更多的虛構現象,同時較長的輸入提示也會降低性能。因此,如圖2所示,我們在提示P_c中融入了“一句話內”的短語來控制描述的長度。通過這種方式,我們鼓勵生成的描述簡潔、準確,并能概括圖像中描繪的場景。這樣一來,不僅能夠減少不實信息的產生,還能保持模型對輸入的高效處理能力,確保了描述內容的高質量和相關性。
圖2. 標準單階段LMM(左圖)和我們的TextCoT(右圖)的概述。TextCoT包括三個階段:(1) 圖像概覽,(2) 粗定位,和 (3) 細粒度觀察。前兩個階段分別生成圖像Ig的全局上下文描述Ac和問題Q的答案區域Ag,從而促進產生更準確的響應Af。
3.2. 粗略定位
我們的第二步目標是利用LMMs的定位能力,在圖像I_g中對答案進行定位。具體來說,如圖2所示,我們使用問題Q、定位提示P_g以及全局圖像I_g來指導LMM,從而生成一個定位答案A_g。這個定位答案包含了答案區域的邊界框坐標。接著,我們根據這個邊界框裁剪圖像,得到局部圖像I_l。局部圖像I_l在第三階段被用來讓LMM仔細檢查這一特定區域,從而生成問題Q的正確答案。接下來我們將介紹我們的裁剪策略。
如圖2所示,針對一個全局圖像I_g和定位答案A_g,我們以其邊界框中心點為焦點,延長較短邊以匹配較長邊,這樣得到一個正方形的邊界框,避免了CLIP-ViT[[44, 50]]在調整尺寸操作中可能引起的形變。隨后,我們引入了一個超參數:擴展比率alpha,用于擴大裁剪后的正方形區域,經驗上設置為1.5。同時,由于LMMs的標準輸入分辨率為336×336或448×448,我們設定最小圖像尺寸為448×448,以防止擴展操作后出現非常小的邊界框。經過上述步驟,我們得到了包含答案的局部區域圖像I_l,確保它包含足夠的信息以便在后續階段給出正確回答。如果正方形裁剪超出了圖像邊界,則將其平移以保持在圖像范圍內。
許多現有的LMMs并未使用專為文本檢測設計的數據集進行訓練。它們的定位能力通常是通過在如RefCOCO[[21, 36]]這樣的物體檢測數據集上的訓練習得的。因此,當LMMs被要求在圖像中定位文本時,常常會出現定位不準確的情況。然而,這一局限性并不妨礙我們的方法。我們的TextCoT不需要精確的位置輸出,一個大致的定位就已經足夠。
3.3. 細致觀察
最后階段聚焦于獲取的答案區域I_l,以生成對問題的準確響應。具體而言,如圖2所述,我們首先在答案描述Ac前添加提示“這是場景的上下文:”,形成描述C。問題Q與第二階段保持一致。任務提示Pt進一步促使模型關注上述上下文C和問題Q。我們的最終文本提示由C、Pt和Q組成。然后,我們用這個文本提示和圖像I_l指導LMM。最終,LMM通過整合圖像I_G中的全局上下文信息及局部圖像I_l中的細致視覺細節,針對提出的問題Q給出精確答案。
4. 實驗
本節基于幾項先進的LMMs,在一系列富含文本的圖像問答基準數據集上進行了廣泛實驗。下面,我們首先介紹涉及的LMMs和基準數據集,并進一步展示和討論實驗結果及消融研究。
4.1. 基線LMMs
在我們的實驗中,基于五種知名的LMMs評估了TextCoT,包括LLaVA-1.5-7B [[32]]、LLaVA-1.5-13B [[32]]、SPHINX [[31]]、ShareGPT4V [[10]]和Qwen-VL-Chat [[4]]。我們使用官方實現為這些LMMs執行推理。鑒于我們的方法是一種鏈式思考方法,無需對模型架構或推理過程做任何調整。在推理過程中,為了模型輸出的最佳性能和穩定性,所有實驗中我們將溫度參數設為0,除CoT-SC [[51]]實驗外,該實驗根據其原始實現設為0.7。下面,我們簡要回顧這些LMMs。
LLaVA-1.5。LLaVA-1.5 [[32]]的模型架構用MLP替換了線性投影,以將視覺特征映射到與LLM共享的嵌入空間。LLaVA-1.5 [[32]]在336×336分辨率下使用CLIP-ViT-L [[44]]作為視覺編碼器,Vicuna [[11]]作為語言解碼器。LLaVA-1.5 [[32]]利用區域級VQA數據集(Visual Genome [[24]]、RefCOCO [[21, 36]])增強模型定位精細視覺實例的能力。我們工作中采用LLaVA-1.5-7B [[32]]和LLaVA-1.5-13B [[32]]模型進行評估,以驗證我們的TextCoT。我們采用準確性 [[34]] 作為度量標準,即模型生成的響應如果包含地面真值中的字符串,則視為正確。
SPHINX。SPHINX [[31]]引入了權重混合策略,以高效結合領域特定知識,并在指令微調期間解凍其LLM權重。SPHINX [[31]]具有更廣泛的多模態問答任務,包括區域級理解、字幕定位和文檔布局檢測。我們在實驗中采用了與LLaVA-1.5 [[32]]相同的度量標準。
ShareGPT4V。ShareGPT4V-7B [[10]]模型遵循LLaVA-1.5 [[32]]的設計。它在預訓練和SFT階段均納入了ShareGPT4V數據集。盡管競爭對手使用更大的訓練數據集或更多參數,ShareGPT4V-7B [[10]]憑借70億參數在大多數多模態基準測試中表現出色。我們采用了與LLaVA-1.5 [[32]]相同的評估指標。
Qwen-VL-Chat。Qwen-VL-7B [[4]]和Qwen-VL-Chat-7B [[4]]是一系列基于Qwen-7B [[3]]大型語言模型的高度性能和多功能的視覺-語言基礎模型。LLM基礎通過引入新的視覺受體(包括與語言對齊的視覺編碼器和位置感知適配器)增強了視覺能力。對于此模型,我們同樣選擇上述準確性指標[[34]]。
GPT-4V。與之前的模型不同,GPT-4V [[1]]的架構和預訓練細節未公開。一些技術報告 [[59]] 揭示了GPT-4V [[1]]的卓越性能,包括字幕生成、對象定位和計數。GPT-4V [[1]]展示了直接以文本格式生成邊界框坐標的能效,無需單獨的文本化框令牌。
Claude。Claude 3 [[2]]的架構和預訓練細節未公開。Claude 3 [[2]]具有以文本格式生成邊界框坐標的能力。我們為定性實驗采用了Claude 3 Opus [[2]]模型,這是最強大的版本。
4.2. 數據集
為了說明TextCoT的強大泛化能力,我們選擇了幾個涵蓋廣泛場景的評估數據集,包括以場景文本為中心的視覺問答、面向文檔的VQA和關鍵信息提取數據集。下面,我們簡要介紹這些數據集。
以場景文本為中心的VQA。TextVQA [[46]]和STVQA [[6]]是場景文本為中心的VQA領域最常用的基準數據集。TextVQA [[46]]基準數據集包含超過45,000個問題,涉及28,000張圖像,這些圖像來自OpenImages [[23]]數據集的不同類別。STVQA [[6]]基準數據集包含超過31,000個問題,涉及從各種公共數據集中收集的23,000張圖像。
面向文檔的VQA。DocVQA [[38]]、InfographicVQA [[39]]和ChartQA [[37]]是三個廣泛使用的面向文檔的VQA任務基準數據集。DocVQA [[38]]數據集包含12,767張不同類型和內容的文檔圖像,以及超過50,000個相關問題和答案。InfographicVQA [[39]]數據集包含5,485張信息圖表圖像的多樣集合,總計有30,035個問題。ChartQA [[37]]數據集包括9,608個手工制作的問題,針對4,804個圖表,以及從17,141個圖表的人類書面摘要生成的23,111個問題。
關鍵信息提取(KIE)。我們進一步使用了KIE領域常見的三個數據集:SROIE [[19]]、FUNSD [[20]]和POIE [[25]]。SROIE [[19]]數據集包含1,000張掃描收據圖像,專門用于OCR和關鍵信息提取競賽,參與者需識別公司名稱、發行日期、地址和總支出等重要細節。FUNSD [[20]]數據集提供了199份真實、完全注釋的掃描表格,可能存在噪聲,因其實際應用中的變化性和潛在模糊性而構成獨特挑戰。POIE [[25]]數據集專注于英文產品營養成分標簽,積累了包含111,155個文本實例的3,000張圖像,主要目標是從這些標簽中提取相關信息。
4.3. 結果
我們首先在上述問答數據集上將我們的方法與基線LMM進行比較,然后與先前的鏈式思考(CoT)方法進行對比。
定量與基線LMM的比較
在表1中,我們評估了五種基線LMM的性能以及集成我們的TextCoT后的性能。評估的LMM涉及不同的模型規模、訓練數據和架構。
- 首先,我們的TextCoT顯著提高了幾乎所有八個數據集上五種先進LMM的性能。這一結果驗證了我們逐步審查局部細節以提供更準確回答的想法。
- 其次,比較架構相同但模型規模不同的LLaVA-1.5-7B [[32]]和LLaVA-1.5-13B [[32]],我們的TextCoT分別實現了平均精度提升2.51%和3.72%。值得注意的是,更大模型從我們的TextCoT中獲益更多。一個可能的解釋是,較大的模型具有更強的認知和推理能力,從而帶來更大的效益。這一結論也在LLM領域內得到證實[[56]]。
- 第三,將LLaVA-1.5-7B [[32]]與使用高質量帶字幕數據但模型規模和架構相同的ShareGPT4V [[10]]進行對比,我們的TextCoT分別產生了平均2.5%和5.46%的精度提升。這表明隨著模型中更好的圖文對齊和更高品質的訓練數據,TextCoT的有效性增加。
- 最后,當將TextCoT應用于架構和訓練數據與上述LMM不同的Qwen-VL-Chat [[4]]時,大多數數據集上的性能有所改善。然而,在DocVQA [[38]]和ChartQA [[37]]數據集上觀察到了性能下降。這可歸因于Qwen-VL-Chat [[4]]在這些數據集上進行過訓練,導致其對該提問風格和圖像特征過分熟悉。因此,嘗試通過應用TextCoT改變提問風格時,觀察到了性能下滑。
定性與基線LMM的比較
我們進一步進行了一系列定性對比。如圖3、圖4和圖5所示,我們展示了兩種基線LMM [[10, 32]] 的響應以及集成TextCoT后的增強響應。可以看出,我們的方法成功地逼近了圖像中的答案區域,并在場景文本和文檔場景中糾正了基線LMM的不準確回答。此外,我們還在先進的GPT-4V [[1]] 和Claude 3 Opus [[2]] 模型上進行了實驗。如圖6和圖7所示,我們的TextCoT增強了這兩個模型的響應準確性。即使LMM提供的邊界框位置不準確,我們的TextCoT方法也不受這種差異的影響。
與先前CoT方法的比較
我們還基于LLAVA-1.5-7B [[32]]和ShareGPT4V [[10]]進行了現有CoT方法的性能比較。比較方法包括針對LLMs的ZS-CoT [[22]]和CoT-SC [[51]],以及針對LMMs的DDCoT [[68]]和CCoT [[40]]。ZS-CoT [[22]]、DDCoT [[68]]和CCoT [[40]]都包括兩個階段,其中ZS-CoT [[22]] 使用“讓我們一步一步思考”的方式。對于CoT-SC [[51]],我們采樣了5條鏈式思考推理路徑。
表2的結果表明,我們的方法顯著優于這些方法。在富含文本的圖像場景中,這些方法未能提高性能,原因在于它們沒有解決對局部和細粒度視覺輸入的需求。相比之下,我們的方法有效地利用了大型多模態模型(LMMs)的字幕和定位能力,提取全局和局部信息以進行準確回答。
消融研究
為了驗證我們提出的TextCoT三個階段的有效性,我們在表3和表4中進行了深入的消融實驗。所有消融實驗均基于經典的LLaVA-1.5-7B [[32]]進行,并在八個問答數據集上評估性能。接下來討論結果。
粗定位的影響
我們首先評估了TextCoT的兩階段變體(表3(b)),第一階段預測一個定位答案\(A_g\),第二階段直接將\(A_g\)輸入LMM。與將圖像\(I_g\)和問題\(Q\)作為輸入的一階段基線方法(表3(a))相比,此變體表現更好。結果突顯了答案區域線索的重要性。然而,該變體并未充分利用答案區域提示,模型仍缺乏局部細粒度視覺輸入。
裁剪過程的影響
基于這個兩階段變體(表3(b)),我們進一步引入了圖像裁剪操作,使LMM能夠獲得詳細的局部信息。如表3所示,包含裁剪操作的方法(表3(c))表現更優。在與文本相關的VQA任務中的顯著改進表明放大答案區域顯著增強了對局部細節的理解。
圖像概覽的影響
由于執行裁剪操作后模型失去了全局上下文信息,只能從裁剪圖像\(I_l\)中提取局部信息。為了解決這個問題,我們加入了全局圖像的字幕,即我們的圖像概覽階段。如表3(d)所示,全球信息的補充進一步提升了性能。這種方法通過文字描述提供全局信息,同時利用局部圖像進行詳細局部信息的提取。這構成了我們的最終TextCoT。
特定裁剪方法的影響
我們進一步對我們的裁剪策略進行了一系列消融研究。如表4所示,我們試驗了嚴格依據定位區域\(A_g\)裁剪(表4(b)),將邊界框按較長邊對齊擴展為正方形(表4(c)),將邊界框擴展為邊長為較長邊1.5倍的正方形(表4(d)),以及完全不裁剪(表4(e))。
實驗結果表明,我們的TextCoT配置(表4(d))展現出優越的性能。這可以歸因于與其它裁剪設置相比,我們的配置保留了足夠的細粒度視覺信息,同時也避免了因裁剪不足而遺漏答案區域。這一結果也與我們的理念相符。
5. 局限性
我們進一步討論了TextCoT的局限性。首先,盡管我們的方法對模型定位能力中的錯誤顯示出一定的容忍度,但它并不適用于那些缺乏檢測能力的LMM。其次,在某些復雜的表格圖像中,答案經常跨越多個不同的區域,這對模型的定位能力提出了更高的要求。探索如何為這類模型精確提取局部和細粒度的視覺特征是一個有意義的研究課題。第三,我們目前的評估局限于文本領域,從而限制了我們的發現向其他模態或領域的普遍適用性。雖然我們當前的研究側重于文本相關任務,未來的努力將旨在開發能在超越文本領域、適用于多種場景并提升性能的CoT方法。
6. 結論
本文介紹了TextCoT,這是一種針對增強LMM理解富含文本圖像能力而定制的新型鏈式思考框架。我們的方法通過利用LMM的字幕生成和定位能力來提高富含文本圖像的問答準確性,從而允許提取全局和局部的視覺信息。TextCoT與現有LMM架構無縫集成,無需額外訓練即可實現即插即用的功能。基于幾種先進LMM的多樣化富含文本圖像問答基準測試的廣泛實驗,持續證明了我們TextCoT的有效性和強健的泛化能力。我們的工作朝著釋放LMM理解富含文本視覺數據的全部潛力邁出了重要的一步。未來,我們將專注于為甚至不具備定位能力的LMM開發方法,并增強它們理解更復雜場景的能力。
Luan B, Feng H, Chen H, et al. TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding[J]. arXiv preprint arXiv:2404.09797, 2024.
University of Science and Technology of China, Merchants Union Consumer Finance Company Limited
本文轉載自公眾號AIRoobt ,作者:AIRoobt
原文鏈接:??https://mp.weixin.qq.com/s/v-cT7pF8TC8_aQuEyWew5w??
