GRIT：讓AI"指著圖說(shuō)話"的新思路

發(fā)布于 2025-6-3 07:01

瀏覽

0收藏

GRIT從本質(zhì)上而言是一種改良過(guò)的強(qiáng)化學(xué)習(xí)，它針對(duì)輸出進(jìn)行了魔改，用一個(gè)生活例子來(lái)理解。想象一下，你在和朋友看一張照片，朋友問(wèn)你："這張照片里有幾只貓？"普通人會(huì)怎么回答？"我看看，這里有一只白貓（用手指著左上角），那里還有一只黑貓（指著右下角），所以一共有2只貓。"

傳統(tǒng)AI是怎么回答的？"我需要仔細(xì)觀察這張圖片，分析其中的動(dòng)物特征，通過(guò)形狀、顏色等特征識(shí)別，最終得出結(jié)論：圖片中有2只貓。"

看出區(qū)別了嗎？人類會(huì)指著具體位置來(lái)說(shuō)明自己的推理過(guò)程，而傳統(tǒng)AI只會(huì)給出文字描述，卻不會(huì)告訴你它在看圖片的哪個(gè)部分。

1）傳統(tǒng)AI的問(wèn)題在于看圖推理時(shí)"指鹿為馬"，分析圖片時(shí)就像睜眼瞎，也許它可能說(shuō)"我看到了一只狗"，但實(shí)際上圖片里根本沒(méi)有狗。它無(wú)法告訴你它在看圖片的哪個(gè)位置。打個(gè)比方：就像一個(gè)學(xué)生在考試時(shí)寫(xiě)答案，卻不顯示計(jì)算過(guò)程。老師無(wú)法知道他是真的會(huì)做，還是瞎猜的。

2）要訓(xùn)練一個(gè)能"指著圖說(shuō)話"的AI，傳統(tǒng)方法需要數(shù)萬(wàn)張圖片，每張圖片都要人工標(biāo)注詳細(xì)信息（這只貓?jiān)谀睦铩⒛侵还吩谀睦铮€要寫(xiě)出詳細(xì)的推理步驟。

這就像：要教一個(gè)孩子認(rèn)識(shí)動(dòng)物，不僅要給他看圖片，還要在每張圖片上畫(huà)出每只動(dòng)物的位置，寫(xiě)出詳細(xì)的識(shí)別過(guò)程。工作量巨大。

GRIT進(jìn)行了微創(chuàng)新，教AI"用坐標(biāo)指路"，GRIT教會(huì)AI在推理時(shí)不只說(shuō)話，還要"指路"：

傳統(tǒng)AI的回答："我看到圖片中有車(chē)輛，通過(guò)分析可以確定有2輛車(chē)。"
GRIT訓(xùn)練的AI回答：

<think> 
我需要數(shù)一數(shù)圖片中的車(chē)輛。
左上角有一輛紅色汽車(chē) [123,456,234,567]，
右下角還有一輛藍(lán)色卡車(chē) [321,432,654,543]
</think>
<rethink>
讓我再仔細(xì)確認(rèn)一下這兩個(gè)位置：
第一個(gè)位置[123,456,234,567]確實(shí)是紅色汽車(chē)，
第二個(gè)位置[321,432,654,543]確實(shí)是藍(lán)色卡車(chē)。
</rethink>
<answer>
圖片中有2輛車(chē)。
</answer>

這里的數(shù)字[123,456,234,567]就是坐標(biāo)，就像GPS定位一樣，告訴你AI在看圖片的哪個(gè)具體區(qū)域！

GRIT：讓AI"指著圖說(shuō)話"的新思路-AI.x社區(qū)

GRIT的神奇之處：只需要20張圖片就能訓(xùn)練成功。GRIT只在答對(duì)時(shí)給糖果，答錯(cuò)時(shí)不給獎(jiǎng)勵(lì)。

獎(jiǎng)勵(lì)1 - 格式獎(jiǎng)勵(lì)（教規(guī)矩）
獎(jiǎng)勵(lì)2 - 計(jì)數(shù)獎(jiǎng)勵(lì)（教準(zhǔn)確）
獎(jiǎng)勵(lì)3 - 答案獎(jiǎng)勵(lì)（教正確）

用GPT-4o當(dāng)"老師"來(lái)判斷答案對(duì)不對(duì)，答對(duì)了 → 給大獎(jiǎng)勵(lì)，反之答錯(cuò)了 → 給小獎(jiǎng)勵(lì)或不給獎(jiǎng)勵(lì)。

如果需要數(shù)3只貓，AI指出了3個(gè)位置 → 給獎(jiǎng)勵(lì)
如果指出了2個(gè)或4個(gè)位置 → 不給獎(jiǎng)勵(lì)。就像教孩子數(shù)數(shù)要準(zhǔn)確一樣
如果AI按照 <think>...坐標(biāo)...</think> 的格式回答 → 給獎(jiǎng)勵(lì)
如果AI亂說(shuō)話不按格式 → 不給獎(jiǎng)勵(lì)，就像教孩子說(shuō)話要有禮貌一樣

傳統(tǒng)方法可能需要請(qǐng)100個(gè)老師，準(zhǔn)備1萬(wàn)本教材，教3個(gè)月。而GRIT則是請(qǐng)1個(gè)老師，準(zhǔn)備20本教材，教1天。而且GRIT讓AI變得"誠(chéng)實(shí)"：

以前用戶："為什么你說(shuō)這里有只貓？"。AI："我就是覺(jué)得有"（無(wú)法解釋）
現(xiàn)在用戶："為什么你說(shuō)這里有只貓？"，AI："因?yàn)槲以谧鴺?biāo)[100,200,300,400]這個(gè)位置看到了貓的特征"。用戶可以立即驗(yàn)證這個(gè)位置是否真的有貓

GRIT：讓AI"指著圖說(shuō)話"的新思路-AI.x社區(qū)

第一步：接收任務(wù)輸入，例如一張客廳照片 + "房間里有幾把椅子？"

第二步：開(kāi)始思考（<think>階段）

AI開(kāi)始掃描圖片：

<think>
我需要在這張客廳圖片中找到所有的椅子。
讓我仔細(xì)看看...
第三步：指出位置并分析，AI找到可疑區(qū)域并標(biāo)記坐標(biāo)：
我在左邊看到一把木椅 [50,100,150,200]，
中間有一把沙發(fā)椅 [200,150,350,250]，
右邊角落還有一把小椅子 [400,300,500,400]
第四步：再次確認(rèn)（<rethink>階段）AI重新檢查自己找到的位置：
<rethink>
讓我再次確認(rèn)這些位置：
位置[50,100,150,200]：確實(shí)是一把木質(zhì)餐椅
位置[200,150,350,250]：這是一把單人沙發(fā)椅
位置[400,300,500,400]：這是一把小凳子，也算椅子
所以總共有3把椅子。
</rethink>

第五步：給出最終答案

<answer>
房間里有3把椅子。
</answer>

以下為強(qiáng)化學(xué)習(xí)的過(guò)程，這個(gè)過(guò)程很像訓(xùn)練寵物：

第一輪嘗試：

AI生成答案："房間里有椅子[亂七八糟的數(shù)字]，所以有2把"

系統(tǒng)判斷：格式亂、位置錯(cuò)、答案也錯(cuò)獎(jiǎng)勵(lì)：0分（什么都不給）

第二輪嘗試：

AI生成答案："<think>有椅子[100,200,300,400]</think> <answer>1把</answer>"

系統(tǒng)判斷：格式對(duì)、位置對(duì)、但答案錯(cuò)了獎(jiǎng)勵(lì)：1分（格式獎(jiǎng)勵(lì)+位置獎(jiǎng)勵(lì)）

第三輪嘗試：

AI生成完整的推理過(guò)程，格式正確，位置準(zhǔn)確，答案正確獎(jiǎng)勵(lì)：滿分！

經(jīng)過(guò)多次訓(xùn)練： AI學(xué)會(huì)了同時(shí)做好三件事：按正確格式回答，準(zhǔn)確指出位置，給出正確答案

從視覺(jué)定位（grounding）和邏輯推理（reasoning）兩個(gè)角度評(píng)估了使用 GRIT 方法訓(xùn)練的多模態(tài)模型在“定位式推理”（grounded reasoning）任務(wù)中的表現(xiàn)。接著，從定性與定量?jī)蓚€(gè)方面進(jìn)一步分析了模型生成的邊界框與其推理內(nèi)容之間的相互作用。最后還研究了訓(xùn)練數(shù)據(jù)規(guī)模擴(kuò)大對(duì)模型性能的影響。

GRIT：讓AI"指著圖說(shuō)話"的新思路-AI.x社區(qū)

在實(shí)驗(yàn)設(shè)置方面，選取了六個(gè)公共數(shù)據(jù)集（VSR、TallyQA、GQA、MME、MathVista-mini 和 OVDEval 的位置子集）作為評(píng)測(cè)集，涵蓋空間關(guān)系驗(yàn)證、目標(biāo)計(jì)數(shù)、組合式空間問(wèn)答、多樣化視覺(jué)任務(wù)及開(kāi)放詞表定位等任務(wù)類型。

訓(xùn)練數(shù)據(jù)方面，展示了GRIT在小樣本場(chǎng)景下的強(qiáng)大能力，僅使用來(lái)自VSR和TallyQA的20個(gè)圖像-問(wèn)題-答案三元組進(jìn)行訓(xùn)練。訓(xùn)練使用 Qwen2.5-VL-3B 和 InternVL3-2B 兩個(gè)主流多模態(tài)模型，在 GRPO-GR 策略下采用強(qiáng)化學(xué)習(xí)進(jìn)行優(yōu)化，訓(xùn)練步驟為 200，使用 Deepspeed Zero2 在 8 張 A100 顯卡上完成，訓(xùn)練耗時(shí)約 12 小時(shí)。

GRIT：讓AI"指著圖說(shuō)話"的新思路-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果表明，GRIT 訓(xùn)練出的模型在 GPT-答案準(zhǔn)確率和 Grounding IoU 兩個(gè)指標(biāo)上均優(yōu)于所有基線方法，體現(xiàn)了其在統(tǒng)一視覺(jué)定位與多步推理能力上的顯著優(yōu)勢(shì)。

本文轉(zhuǎn)載自??????魯班模錘??????，作者：龐德公

標(biāo)簽

GRIT

GPT

贊

回復(fù)