成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

增加定位能力提升圖表問答性能,新的圖表理解框架-RefChartQA 原創

發布于 2025-6-23 06:37
瀏覽
0收藏

現有工作主要包括圖表問答(Chart QA)基準、圖表理解模型和視覺答案定位(VAG)。Chart QA基準如FigureQA、DVQA、PlotQA和ChartQA等,主要集中在圖表問答任務上,但缺乏顯式的視覺定位,從而忽略了VLMs在ChartQA上的可解釋性。RefChartQA通過將Chart QA與視覺定位相結合,并提供了一個新的基準測試,使模型能夠引用圖表圖像中的多個粒度元素。該基準擴展了現有的ChartQA資源,專注于涉及算術或邏輯推理的問題。

增加定位能力提升圖表問答性能,新的圖表理解框架-RefChartQA-AI.x社區

RefChartQA框架:將圖表理解任務與視覺答案定位相結合

RefChartQA基準測試

RefChartQA是一個新的基準測試,擴展了現有的ChartQA資源,專注于需要算術或邏輯推理的問題,并通過邊界框注釋實現答案的視覺定位。

增加定位能力提升圖表問答性能,新的圖表理解框架-RefChartQA-AI.x社區

標注過程

標注過程包括三個階段:單元素提取、基于程序思維(PoT)的提取和基于GPT的注釋。

單元素提取:這一階段主要針對不需要計算或邏輯推理的單元素非算術問題。答案通常直接對應于圖表中的一個數據元素。使用啟發式方法,通過分析問題和答案文本,提取x軸標簽、類別和數據值(僅從答案中提取),并結合字符串和顏色匹配來識別相關的視覺元素。如果只有一個匹配的元素,則選擇它作為定位元素;如果有多個匹配,則注釋失敗,問題進入下一階段。

基于程序思維(PoT)的提取:這一階段處理更復雜的問題,特別是那些需要算術運算或多元素交互的問題。使用TinyChart的PoT方法來重建推導定位所需的邏輯推理路徑。例如,通過提取相關元數據(如年份和人數),并進行一系列推理操作,最終得出答案。在驗證過程中,確保PoT預測與真實答案完全匹配,以減少錯誤。然后使用模板方法提取相關的推理元素作為定位注釋。

基于GPT的注釋:對于單元素和PoT方法無法處理的復雜推理問題,使用GPT-4o-mini進行注釋。提供圖表元數據(包括數據值和視覺屬性),模型被要求預測答案并識別關鍵的圖表元數據元素。同樣要求預測的準確性,以減少幻覺。

增加定位能力提升圖表問答性能,新的圖表理解框架-RefChartQA-AI.x社區

PoT code

增加定位能力提升圖表問答性能,新的圖表理解框架-RefChartQA-AI.x社區

每個基準劃分樣本的情況

增加定位能力提升圖表問答性能,新的圖表理解框架-RefChartQA-AI.x社區

不同階段的標注成功分布情況:單一元素檢索、基于PoT的推理以及基于GPT的定位

方法

1、視覺定位序列構建:使用邊界框(bounding box)范式來實現視覺定位。具體來說,利用現有的語言標記來編碼邊界框,采用角點表示法,將每個邊界框用??<box>...</box>??包圍。這種方法使LLMs能夠適應新任務,同時保持其原有的任務特定技能。為了提高圖像理解能力,文檔提到在自回歸模型中交錯空間和文本信息可以增強模型將對象與其上下文描述關聯的能力。為了避免空間表示的不一致性,文檔采用了Qwen-VL的方法,將每個坐標歸一化并量化到[0, 1000)范圍內。

2、序列預測順序:在自回歸模型中,邊界框參數的預測順序對模型性能有顯著影響。圖表數據元素通常按類別分組,并按有意義的順序排列(如從左到右或從上到下),這與自然圖像不同。標注中保留了這種內在順序,確保模型在預測時能夠正確關聯對象。

3、輸出模板:最終的輸出模板設計為可以容納多個邊界框,并使用特定的分隔符將定位信息與最終答案區分開來。模板的結構為:??(<box>x_min, y_min, x_max, y_max</box>)^n|<grounding-sep>|answer??。

實驗

  • 引入定位任務后,模型在復雜查詢上的響應準確性顯著提高。

增加定位能力提升圖表問答性能,新的圖表理解框架-RefChartQA-AI.x社區

  • 引入視覺定位任務后,模型的解釋能力增強,能夠更好地關注圖表中的關鍵區域。然而,也存在一些錯誤定位和錯誤答案的情況,主要原因包括數學推理不足、多個有效答案的選擇問題以及推理-定位對齊失敗。

增加定位能力提升圖表問答性能,新的圖表理解框架-RefChartQA-AI.x社區

參考文獻:RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning,https://arxiv.org/pdf/2503.23131v2


本文轉載自??大模型自然語言處理??   作者:余俊暉

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-6-23 10:46:32修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 四虎影院新地址 | 国产免费xxx | 国产精品视频www | 国产精品久久久久久久毛片 | 日本一区二区不卡视频 | 日韩在线不卡视频 | 国产午夜精品理论片a大结局 | 天堂一区二区三区 | 精品亚洲视频在线 | 国产精品1区2区3区 国产在线观看一区 | 成人激情视频网 | 久久精品视频网站 | 久久久www| 影音先锋欧美资源 | 日本三级在线 | 国产精品自拍视频 | a精品视频| 欧美一区在线看 | 拍真实国产伦偷精品 | 欧美黄色一区 | 国产一区二区三区色淫影院 | 羞羞在线观看视频 | 蜜桃视频在线观看免费视频网站www | 午夜丰满少妇一级毛片 | 一区二区免费在线观看 | 91免费在线视频 | 国产91黄色 | 国产精品久久国产精品 | www.v888av.com | 成人在线观看免费视频 | 久久a久久| 日本三级精品 | 日日夜夜操天天干 | 日本精品视频在线观看 | 免费福利视频一区二区三区 | 欧美日韩国产在线观看 | 欧美高清性xxxxhdvideosex | 亚洲精品99 | 在线中文字幕av | 亚洲一区 中文字幕 | 九九九视频精品 |