成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GRIT:讓AI"指著圖說(shuō)話"的新思路

發(fā)布于 2025-6-3 07:01
瀏覽
0收藏

GRIT從本質(zhì)上而言是一種改良過(guò)的強(qiáng)化學(xué)習(xí),它針對(duì)輸出進(jìn)行了魔改,用一個(gè)生活例子來(lái)理解。想象一下,你在和朋友看一張照片,朋友問(wèn)你:"這張照片里有幾只貓?"普通人會(huì)怎么回答?"我看看,這里有一只白貓(用手指著左上角),那里還有一只黑貓(指著右下角),所以一共有2只貓。"

傳統(tǒng)AI是怎么回答的?"我需要仔細(xì)觀察這張圖片,分析其中的動(dòng)物特征,通過(guò)形狀、顏色等特征識(shí)別,最終得出結(jié)論:圖片中有2只貓。"

看出區(qū)別了嗎?人類會(huì)指著具體位置來(lái)說(shuō)明自己的推理過(guò)程,而傳統(tǒng)AI只會(huì)給出文字描述,卻不會(huì)告訴你它在看圖片的哪個(gè)部分。

1)傳統(tǒng)AI的問(wèn)題在于看圖推理時(shí)"指鹿為馬",分析圖片時(shí)就像睜眼瞎,也許它可能說(shuō)"我看到了一只狗",但實(shí)際上圖片里根本沒(méi)有狗。它無(wú)法告訴你它在看圖片的哪個(gè)位置。打個(gè)比方: 就像一個(gè)學(xué)生在考試時(shí)寫(xiě)答案,卻不顯示計(jì)算過(guò)程。老師無(wú)法知道他是真的會(huì)做,還是瞎猜的。

2)要訓(xùn)練一個(gè)能"指著圖說(shuō)話"的AI,傳統(tǒng)方法需要數(shù)萬(wàn)張圖片,每張圖片都要人工標(biāo)注詳細(xì)信息(這只貓?jiān)谀睦铩⒛侵还吩谀睦铮€要寫(xiě)出詳細(xì)的推理步驟。

這就像: 要教一個(gè)孩子認(rèn)識(shí)動(dòng)物,不僅要給他看圖片,還要在每張圖片上畫(huà)出每只動(dòng)物的位置,寫(xiě)出詳細(xì)的識(shí)別過(guò)程。工作量巨大。

GRIT進(jìn)行了微創(chuàng)新,教AI"用坐標(biāo)指路",GRIT教會(huì)AI在推理時(shí)不只說(shuō)話,還要"指路":

  • 傳統(tǒng)AI的回答:"我看到圖片中有車(chē)輛,通過(guò)分析可以確定有2輛車(chē)。"
  • GRIT訓(xùn)練的AI回答:

<think> 
我需要數(shù)一數(shù)圖片中的車(chē)輛。
左上角有一輛紅色汽車(chē) [123,456,234,567],
右下角還有一輛藍(lán)色卡車(chē) [321,432,654,543]
</think>
<rethink>
讓我再仔細(xì)確認(rèn)一下這兩個(gè)位置:
第一個(gè)位置[123,456,234,567]確實(shí)是紅色汽車(chē),
第二個(gè)位置[321,432,654,543]確實(shí)是藍(lán)色卡車(chē)。
</rethink>
<answer>
圖片中有2輛車(chē)。
</answer>

這里的數(shù)字[123,456,234,567]就是坐標(biāo),就像GPS定位一樣,告訴你AI在看圖片的哪個(gè)具體區(qū)域!

GRIT:讓AI"指著圖說(shuō)話"的新思路-AI.x社區(qū)

GRIT的神奇之處:只需要20張圖片就能訓(xùn)練成功。GRIT只在答對(duì)時(shí)給糖果,答錯(cuò)時(shí)不給獎(jiǎng)勵(lì)。

  •  獎(jiǎng)勵(lì)1 - 格式獎(jiǎng)勵(lì)(教規(guī)矩)
  • 獎(jiǎng)勵(lì)2 - 計(jì)數(shù)獎(jiǎng)勵(lì)(教準(zhǔn)確)
  • 獎(jiǎng)勵(lì)3 - 答案獎(jiǎng)勵(lì)(教正確)

用GPT-4o當(dāng)"老師"來(lái)判斷答案對(duì)不對(duì),答對(duì)了 → 給大獎(jiǎng)勵(lì),反之答錯(cuò)了 → 給小獎(jiǎng)勵(lì)或不給獎(jiǎng)勵(lì)。

  • 如果需要數(shù)3只貓,AI指出了3個(gè)位置 → 給獎(jiǎng)勵(lì)
  • 如果指出了2個(gè)或4個(gè)位置 → 不給獎(jiǎng)勵(lì)。就像教孩子數(shù)數(shù)要準(zhǔn)確一樣
  • 如果AI按照 <think>...坐標(biāo)...</think> 的格式回答 → 給獎(jiǎng)勵(lì)
  • 如果AI亂說(shuō)話不按格式 → 不給獎(jiǎng)勵(lì),就像教孩子說(shuō)話要有禮貌一樣

傳統(tǒng)方法可能需要請(qǐng)100個(gè)老師,準(zhǔn)備1萬(wàn)本教材,教3個(gè)月。而GRIT則是請(qǐng)1個(gè)老師,準(zhǔn)備20本教材,教1天。而且GRIT讓AI變得"誠(chéng)實(shí)":

  • 以前用戶:"為什么你說(shuō)這里有只貓?"。AI:"我就是覺(jué)得有"(無(wú)法解釋)
  • 現(xiàn)在用戶:"為什么你說(shuō)這里有只貓?",AI:"因?yàn)槲以谧鴺?biāo)[100,200,300,400]這個(gè)位置看到了貓的特征"。用戶可以立即驗(yàn)證這個(gè)位置是否真的有貓

GRIT:讓AI"指著圖說(shuō)話"的新思路-AI.x社區(qū)

第一步:接收任務(wù)輸入,例如一張客廳照片 + "房間里有幾把椅子?"

第二步:開(kāi)始思考(<think>階段)

AI開(kāi)始掃描圖片:

<think>
我需要在這張客廳圖片中找到所有的椅子。
讓我仔細(xì)看看...
第三步:指出位置并分析,AI找到可疑區(qū)域并標(biāo)記坐標(biāo):
我在左邊看到一把木椅 [50,100,150,200],
中間有一把沙發(fā)椅 [200,150,350,250],
右邊角落還有一把小椅子 [400,300,500,400]
第四步:再次確認(rèn)(<rethink>階段)AI重新檢查自己找到的位置:
<rethink>
讓我再次確認(rèn)這些位置:
位置[50,100,150,200]:確實(shí)是一把木質(zhì)餐椅
位置[200,150,350,250]:這是一把單人沙發(fā)椅
位置[400,300,500,400]:這是一把小凳子,也算椅子
所以總共有3把椅子。
</rethink>

第五步:給出最終答案

<answer>
房間里有3把椅子。
</answer>

以下為強(qiáng)化學(xué)習(xí)的過(guò)程,這個(gè)過(guò)程很像訓(xùn)練寵物:

  • 第一輪嘗試:

AI生成答案:"房間里有椅子[亂七八糟的數(shù)字],所以有2把"

系統(tǒng)判斷:格式亂、位置錯(cuò)、答案也錯(cuò)獎(jiǎng)勵(lì):0分(什么都不給)

  • 第二輪嘗試:

AI生成答案:"<think>有椅子[100,200,300,400]</think> <answer>1把</answer>"

系統(tǒng)判斷:格式對(duì)、位置對(duì)、但答案錯(cuò)了獎(jiǎng)勵(lì):1分(格式獎(jiǎng)勵(lì)+位置獎(jiǎng)勵(lì))

第三輪嘗試:

AI生成完整的推理過(guò)程,格式正確,位置準(zhǔn)確,答案正確獎(jiǎng)勵(lì):滿分!

經(jīng)過(guò)多次訓(xùn)練: AI學(xué)會(huì)了同時(shí)做好三件事:按正確格式回答,準(zhǔn)確指出位置,給出正確答案

從視覺(jué)定位(grounding)和邏輯推理(reasoning)兩個(gè)角度評(píng)估了使用 GRIT 方法訓(xùn)練的多模態(tài)模型在“定位式推理”(grounded reasoning)任務(wù)中的表現(xiàn)。接著,從定性與定量?jī)蓚€(gè)方面進(jìn)一步分析了模型生成的邊界框與其推理內(nèi)容之間的相互作用。最后還研究了訓(xùn)練數(shù)據(jù)規(guī)模擴(kuò)大對(duì)模型性能的影響。

GRIT:讓AI"指著圖說(shuō)話"的新思路-AI.x社區(qū)

在實(shí)驗(yàn)設(shè)置方面,選取了六個(gè)公共數(shù)據(jù)集(VSR、TallyQA、GQA、MME、MathVista-mini 和 OVDEval 的位置子集)作為評(píng)測(cè)集,涵蓋空間關(guān)系驗(yàn)證、目標(biāo)計(jì)數(shù)、組合式空間問(wèn)答、多樣化視覺(jué)任務(wù)及開(kāi)放詞表定位等任務(wù)類型。

訓(xùn)練數(shù)據(jù)方面,展示了GRIT在小樣本場(chǎng)景下的強(qiáng)大能力,僅使用來(lái)自VSR和TallyQA的20個(gè)圖像-問(wèn)題-答案三元組進(jìn)行訓(xùn)練。訓(xùn)練使用 Qwen2.5-VL-3B 和 InternVL3-2B 兩個(gè)主流多模態(tài)模型,在 GRPO-GR 策略下采用強(qiáng)化學(xué)習(xí)進(jìn)行優(yōu)化,訓(xùn)練步驟為 200,使用 Deepspeed Zero2 在 8 張 A100 顯卡上完成,訓(xùn)練耗時(shí)約 12 小時(shí)。

GRIT:讓AI"指著圖說(shuō)話"的新思路-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果表明,GRIT 訓(xùn)練出的模型在 GPT-答案準(zhǔn)確率和 Grounding IoU 兩個(gè)指標(biāo)上均優(yōu)于所有基線方法,體現(xiàn)了其在統(tǒng)一視覺(jué)定位與多步推理能力上的顯著優(yōu)勢(shì)。

本文轉(zhuǎn)載自??????魯班模錘??????,作者:龐德公

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 日韩成人中文字幕 | 97精品超碰一区二区三区 | 日韩在线视频一区二区三区 | 欧美精品a∨在线观看不卡 欧美日韩中文字幕在线播放 | 伊人色综合久久天天五月婷 | 男人的天堂亚洲 | 欧美日韩专区 | 日韩一级精品视频在线观看 | 亚洲第一在线视频 | 亚洲超碰在线观看 | 欧美激情国产日韩精品一区18 | 久久久久91 | 伊人无码高清 | 秋霞电影院午夜伦 | 天天操天天干天天曰 | 日本中文在线视频 | 日韩在线不卡 | 99视频入口 | 九九九久久国产免费 | 欧美激情视频一区二区三区在线播放 | 欧美二区三区 | 精品一区二区三区免费毛片 | 精品国产一区二区三区久久 | 人人干在线视频 | 亚洲iv一区二区三区 | 中文字幕在线三区 | 在线黄色影院 | 精品网站999 | 中文字幕成人av | 国产午夜av片 | 亚洲精品高清视频 | 一区二区三区精品在线视频 | 二区不卡 | 久久一区二区三区电影 | www.99久久.com| h片在线看| 日韩欧美不卡 | 亚洲高清三级 | 亚洲va欧美va天堂v国产综合 | 成人免费xxxxx在线视频 | 九七午夜剧场福利写真 |