CVPR 2025 | Qwen讓AI「看見」三維世界,SeeGround實(shí)現(xiàn)零樣本開放詞匯3D視覺定位
3D 視覺定位(3D Visual Grounding, 3DVG)是智能體理解和交互三維世界的重要任務(wù),旨在讓 AI 根據(jù)自然語言描述在 3D 場景中找到指定物體。
具體而言,給定一個(gè) 3D 場景和一段文本描述,模型需要準(zhǔn)確預(yù)測目標(biāo)物體的 3D 位置,并以 3D 包圍框的形式輸出。相比于傳統(tǒng)的目標(biāo)檢測任務(wù),3DVG 需要同時(shí)理解文本、視覺和空間信息,挑戰(zhàn)性更高。
之前主流的方法大多基于監(jiān)督學(xué)習(xí),這類方法依賴大規(guī)模 3D 標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,盡管在已知類別和場景中表現(xiàn)優(yōu)異,但由于獲取 3D 標(biāo)注數(shù)據(jù)的成本高昂,同時(shí)受限于訓(xùn)練數(shù)據(jù)分布,導(dǎo)致它難以泛化到未見過的新類別或新環(huán)境。為了減少標(biāo)注需求,弱監(jiān)督方法嘗試使用少量 3D 標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí),但它仍然依賴一定數(shù)量的 3D 訓(xùn)練數(shù)據(jù),并且在開放詞匯(Open-Vocabulary)場景下,模型對(duì)未見物體的識(shí)別能力仍然受限。
最近的零樣本 3DVG 方法通過大語言模型(LLM)進(jìn)行目標(biāo)推理,試圖繞開對(duì) 3D 訓(xùn)練數(shù)據(jù)的需求。然而,這類方法通常忽略了 3D 視覺細(xì)節(jié),例如物體的顏色、形狀、朝向等,使得模型在面對(duì)多個(gè)相似物體時(shí)難以進(jìn)行細(xì)粒度區(qū)分。這些方法就像讓 AI “閉著眼睛” 理解 3D 世界,最終導(dǎo)致模型難以精準(zhǔn)定位目標(biāo)物體。
因此,如何在零樣本條件下結(jié)合視覺信息與 3D 空間關(guān)系,實(shí)現(xiàn)高效、準(zhǔn)確的 3DVG,成為當(dāng)前 3D 視覺理解領(lǐng)域亟待解決的問題。
為此,來自香港科技大學(xué)(廣州)、新加坡 A*STAR 研究院和新加坡國立大學(xué)的研究團(tuán)隊(duì)提出了 SeeGround:一種全新的零樣本 3DVG 框架。該方法無需任何 3D 訓(xùn)練數(shù)據(jù),僅通過 2D 視覺語言模型(VLM)即可實(shí)現(xiàn) 3D 物體定位。其核心創(chuàng)新在于將 3D 場景轉(zhuǎn)換為 2D-VLM 可處理的形式,利用 2D 任務(wù)的強(qiáng)大能力解決 3D 問題,實(shí)現(xiàn)對(duì)任意物體和場景的泛化,為實(shí)際應(yīng)用提供了更高效的解決方案。
SeeGround 已被 CVPR 2025 接收,論文、代碼和模型權(quán)重均已公開。
- 論文標(biāo)題:SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding
- 論文主頁:https://seeground.github.io
- 論文地址:https://arxiv.org/pdf/2412.04383
- 代碼:https://github.com/iris0329/SeeGround
SeeGround:用 2D 視覺大模型完成 3D 物體定位
如圖所示,SeeGround 主要由兩個(gè)關(guān)鍵模塊組成:透視自適應(yīng)模塊(PAM)和融合對(duì)齊模塊(FAM)。PAM 通過動(dòng)態(tài)視角選擇,確保 VLM 能夠準(zhǔn)確理解物體的空間關(guān)系;FAM 則通過視覺提示增強(qiáng)技術(shù),將 2D 圖像中的物體與 3D 坐標(biāo)信息對(duì)齊,提升定位精度。
透視自適應(yīng)模塊(Perspective Adaptation Module, PAM)
在 3D 物體定位任務(wù)中,直接使用一個(gè)固定視角將 3D 場景渲染為 2D 圖像(如俯視圖)雖然能提供物體的顏色、紋理等信息,但卻存在一個(gè)關(guān)鍵問題 ——VLM 本質(zhì)上是基于平面的視覺感知模型,它只能 “看到” 圖像中的物體,而無法推理 3D 物體的空間位置,比如前后、左右關(guān)系。
因此,如果描述中涉及相對(duì)空間位置(如 “桌子右邊的椅子”),VLM 很可能誤判。例如,在俯視視角下,桌子和椅子的相對(duì)位置可能會(huì)因透視投影而發(fā)生變化,原本在桌子右邊的椅子可能會(huì)被誤認(rèn)為在左邊,而 VLM 只能依賴 2D 圖像中的視覺特征,無法推斷物體在三維空間中的實(shí)際位置。直接使用固定視角渲染的 2D 圖像作為輸入,會(huì)導(dǎo)致模型在涉及空間位置關(guān)系的任務(wù)上表現(xiàn)不佳。
為了解決這個(gè)問題,SeeGround 設(shè)計(jì)了一個(gè)動(dòng)態(tài)視角選擇策略,先解析用戶輸入的文本,識(shí)別出描述中涉及的錨定物體(anchor object),即用于參考空間關(guān)系的對(duì)象。隨后,系統(tǒng)根據(jù)錨定物體的位置計(jì)算最佳觀察角度,調(diào)整虛擬攝像機(jī),使其從更符合人類直覺的角度捕捉場景,確保 VLM 可以準(zhǔn)確理解物體的空間關(guān)系。最終,SeeGround 生成一張符合查詢語義的 2D 圖像,該圖像能夠更清晰地呈現(xiàn)目標(biāo)物體與其參考物體的相對(duì)位置,使 VLM 具備更強(qiáng)的 3D 關(guān)系推理能力。這一策略不僅提高了 VLM 在 3D 物體定位任務(wù)中的準(zhǔn)確率,同時(shí)也避免了因固定視角導(dǎo)致的方向性誤判和遮擋問題,使得零樣本 3DVG 任務(wù)在復(fù)雜環(huán)境下依然具備穩(wěn)定的泛化能力。
融合對(duì)齊模塊(Fusion Alignment Module, FAM)
透視自適應(yīng)模塊(PAM)能夠?yàn)?VLM 提供更符合任務(wù)需求的觀察視角,但即使如此,VLM 仍然面臨一個(gè)關(guān)鍵挑戰(zhàn):它無法直接推理 3D 物體的空間信息,也無法自動(dòng)對(duì)齊 2D 渲染圖中的物體與 3D 位置描述中的物體。
SeeGround 將 3D 場景表示為 2D 渲染圖像 + 文本 3D 坐標(biāo)信息,然而,當(dāng) VLM 看到 2D 渲染圖像時(shí),它并不知道圖中的椅子對(duì)應(yīng)的是哪個(gè) 3D 坐標(biāo)。這意味著,如果場景中有多個(gè)相似物體(如多把椅子),VLM 可能會(huì)誤解 2D 圖像中的目標(biāo)物體,導(dǎo)致錯(cuò)誤的 3D 預(yù)測。
SeeGround 通過視覺提示增強(qiáng)(Visual Prompting) 技術(shù),在 2D 渲染圖像中標(biāo)注出關(guān)鍵物體的位置,使 VLM 能夠識(shí)別出 2D 畫面中的具體目標(biāo)物體,并將其與 3D 坐標(biāo)數(shù)據(jù)關(guān)聯(lián)。
首先,SeeGround 使用對(duì)象查找表(Object Lookup Table) 來獲取場景中的所有物體的 3D 坐標(biāo)。然后,使用投影技術(shù)將 3D 物體的空間位置轉(zhuǎn)換為 2D 圖像中的對(duì)應(yīng)位置,并在渲染圖像上添加可視化標(biāo)注,以便 VLM 在推理時(shí)能夠準(zhǔn)確識(shí)別出目標(biāo)物體。同時(shí),在文本描述輸入部分,SeeGround 進(jìn)一步增強(qiáng)了 3D 物體的空間描述,使 VLM 在推理時(shí)能夠結(jié)合 2D 視覺特征和 3D 坐標(biāo)信息,從而準(zhǔn)確匹配目標(biāo)物體。
實(shí)驗(yàn)結(jié)果
為了驗(yàn)證 SeeGround 在零樣本 3D 視覺定位(3DVG)任務(wù)中的有效性,作者在 ScanRefer 和 Nr3D 數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)。結(jié)果表明,SeeGround 在多個(gè)基準(zhǔn)測試中顯著超越了現(xiàn)有零樣本方法,并在某些任務(wù)上接近弱監(jiān)督甚至全監(jiān)督方法的性能。
此外,在對(duì)比實(shí)驗(yàn)中,即使去除部分文本信息,SeeGround 仍然能夠利用視覺線索進(jìn)行準(zhǔn)確定位,進(jìn)一步驗(yàn)證了該方法在不完全信息條件下的穩(wěn)健性。
作者專門設(shè)計(jì)了一個(gè)場景,即讓模型在文本描述缺失關(guān)鍵物體信息的情況下,嘗試定位目標(biāo)物體:在 “請(qǐng)找到打印機(jī)上方的柜子” 這一查詢?nèi)蝿?wù)中,文本輸入被刻意去除了 “打印機(jī)” 和 “柜臺(tái)” 等關(guān)鍵信息,僅提供物體類別及其位置信息。
在這種情況下,僅依賴文本推理的 LLM 由于無法獲取必要的上下文信息,錯(cuò)誤地匹配到了錯(cuò)誤的柜子。而 SeeGround 通過 VLM 結(jié)合視覺信息成功識(shí)別出圖像中的打印機(jī),并準(zhǔn)確定位其上方的柜子。
這一特性進(jìn)一步提升了 SeeGround 在復(fù)雜現(xiàn)實(shí)環(huán)境中的適用性,使其能夠在 3D 物體定位任務(wù)中表現(xiàn)出更強(qiáng)的穩(wěn)健性和泛化能力。
結(jié)論
SeeGround 通過無需 3D 訓(xùn)練數(shù)據(jù)的創(chuàng)新設(shè)計(jì),成功解決了現(xiàn)有零樣本方法在視覺細(xì)節(jié)和空間推理上的不足,顯著提升了 3DVG 任務(wù)的泛化能力。這一突破為增強(qiáng)現(xiàn)實(shí)、機(jī)器人導(dǎo)航和智能家居等領(lǐng)域提供了更高效、靈活的 3D 物體定位方案。
作者介紹
SeeGround 是香港科技大學(xué)(廣州)、新加坡 A*STAR 研究院和新加坡國立大學(xué)團(tuán)隊(duì)的合作項(xiàng)目。
本文的第一作者為港科廣博士生李蓉,通訊作者為港科廣 AI Thrust 助理教授梁俊衛(wèi)。其余作者包括新加坡國立大學(xué)博士生孔令東,以及 A*STAR 研究院研究員李仕杰和 Xulei Yang。