成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器人視覺語言導航進入R1時代!港大聯合上海AI Lab提出全新具身智能框架

人工智能 新聞
由香港大學與上海AI Lab聯合提出的VLN-R1,具備將自然語言指令直接轉化為第一人稱視角下的連續導航動作的能力,無需依賴離散地圖,能在復雜環境中靈活感知、決策與行動,實現類人級別的具身智能導航。

你對著家里的機器人說:“去廚房,看看冰箱里還有沒有牛奶。”

它不僅準確走到了廚房,還在移動過程中避開了椅子,轉身打開冰箱,并回答你:“還有半瓶。”

圖片

這不是遙遠的科幻,而是視覺語言導航技術的下一站。

由香港大學與上海AI Lab聯合提出的VLN-R1,具備將自然語言指令直接轉化為第一人稱視角下的連續導航動作的能力,無需依賴離散地圖,能在復雜環境中靈活感知、決策與行動,實現類人級別的具身智能導航。

圖片

在VLN-CE基準測試中,VLN-R1展現出了很強性能,僅用Qwen2-VL-2B模型(20億參數),通過RFT訓練后就超越了7B模型的SFT結果。

更具挑戰性的長距離導航中,VLN-R1實現了“跨域遷移”——在R2R上預訓練后,僅用1萬RxR樣本進行RFT,性能就超過了使用完整RxR數據訓練的模型,彰顯出極強的數據效率。

圖片

VLN-R1:讓LVLM采用類Deepseek-R1范式成為具身導航會思考的“大腦”

視覺語言導航(VLN)是具身人工智能領域的核心挑戰之一。其核心要求是:讓智能體能夠基于自然語言指令(如“走到客廳的沙發旁”),在現實環境中自主完成導航任務。

這一任務的復雜性在于,智能體需要同時理解語言語義,并結合實時視覺感知來規劃行動路徑,實現“語言指令”與“環境交互”的跨模態融合。

當前主流的基于語言模型的導航系統,普遍依賴離散拓撲圖進行路徑規劃。具體表現為:

  • 將環境抽象為預定義的“節點”(如房間入口、走廊拐角等)和“連接邊”(節點間的可行路徑);
  • 導航過程被限制在這些預設的節點連接范圍內,無法靈活應對未標注的環境細節或動態變化(例如突然出現的障礙物);
  • 這種離散化的處理方式,導致系統對復雜環境的適應性較差,難以實現真正貼近人類日常的連續導航動作(如繞開茶幾、調整行走方向等)。

VLN-R1的核心突破在于打破了“視覺輸入→文本描述→離散決策”的傳統鏈條,直接讓LVLM(如Qwen2-VL)以第一人稱視頻流為”眼睛”,輸出連續導航動作(前進、左轉、右轉、停止)。

圖片

這一框架具有三大創新支柱:

兩階段訓練+時間衰減獎勵:從模仿到強化的智能進化

1.監督微調(SFT):讓模型先通過專家演示學習”正確動作序列的文本表達”,例如看到”前方有門”時輸出”FORWARD”動作描述。

2.強化微調(RFT):為了讓導航需要考慮動作的前后關聯(比如現在轉錯方向,后面就很難到達目標)。為此,強化微調階段引入了 “獎勵機制”,讓模型在試錯中學會更聰明的決策:

a.分組對比優化(GRPO)

模型會針對同一組指令和畫面,同時生成多個不同的動作方案(比如 8 種走法),然后通過比較這些 方案的“好壞”來優化策略:好的方案會被鼓勵多生成,差的方案則減少出現,就像人類在多個選項 中選擇最優路徑。這種方法不需要提前設定固定的獎勵規則,而是通過方案間的相對優劣來學習,更符合真實環境的復雜性。

b.時間衰減獎勵(TDR):讓模型關注“眼前重點”

在真實導航場景中,當前動作的準確性直接決定了后續規劃的可行性 —— 就像人類走路時若不先避開眼前的障礙物,即便遠處的路線規劃得再完美也會碰壁。

TDR機制正是模擬了這一人類直覺:它對近期動作(如當前步、下一步)賦予更高的獎勵權重,而隨著時間推移,遠期動作(如 5 步之后)的權重會逐步降低。

這種設計讓模型學會優先確保眼前動作的精準執行,比如先完成關鍵的轉彎避開障礙,再循序漸進地考慮后續步驟,避免因過度關注遠處目標而忽視當下的環境風險,如同人類行走時總是先看好腳下的每一步,再規劃前方的行進路線。

VLN-Ego數據集:構建具身智能的“訓練操場”

圖片

研究團隊利用Habitat模擬器構建了全新的VLN-Ego數據集,包含63萬R2R(房間到房間)和120萬RxR(跨房間)訓練樣本。每個樣本由三部分組成:自然語言指令(如“走過餐桌,左轉進入走廊”)、第一人稱歷史視覺記憶與當前觀測、未來6步的動作標簽。

與傳統數據集不同,VLN-Ego完全基于第一人稱視角,摒棄了全局地圖等“作弊”信息,迫使模型學會基于實時視覺輸入的決策能力。

短時記憶采樣:平衡歷史經驗與實時感知

為解決視覺序列處理中“近期信息過載、長期記憶丟失”的難題,VLN-R1提出了長短時記憶采樣策略。

模型會以較高頻率采樣最近M步的短期記憶(如當前看到的沙發位置),同時以較低頻率抽取更早的長期記憶(如走廊的初始方向),通過這種”遠近結合”的方式,確保Agent在復雜環境中既不迷失方向,又能對突發情況做出反應。

實驗驗證:小模型超越大模型,數據效率顛覆認知

除了前文所描述的性能表現,更值得關注的是VLN-R1的”小而美”特性——通過RFT優化,2B模型性能直逼7B模型,這為資源受限場景(如家用機器人)的落地提供了可能。

圖片

具身智能的未來:從導航到認知的全鏈路升級

該研究的核心啟示在于:具身智能的關鍵不是復雜的模塊化設計,而是讓模型像人類一樣,通過“感知-決策-行動”的閉環進行學習。VLN-R1證明,LVLM完全有能力成為這個閉環的“控制中樞”,而時間衰減獎勵等機制則為模型注入了對物理世界時序規律的理解。

隨著VLN-Ego數據集與配套訓練框架的開放,該方法的可復現性和拓展性正在提升。從工廠物流機器人到家庭服務助手,該框架正在促進AI從“數字智能”向“具身認知”跨越。

主頁網址:https://vlnr1.github.io/

代碼網址:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-07-22 15:34:21

2025-03-10 13:31:28

2023-11-08 13:20:00

模型數據

2024-12-19 14:44:22

2025-05-13 13:54:41

R1MMLabAI

2024-06-04 09:25:51

2023-12-23 23:16:36

機器人模型

2025-05-28 13:25:14

2024-12-11 12:00:00

2025-02-28 08:30:00

2024-11-01 09:45:08

2024-07-22 08:00:00

機器人虛擬

2020-04-09 09:56:55

機器人導航框架

2022-09-23 09:53:41

機器人機器學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产成人精品综合 | 一区二区三区不卡视频 | 成人欧美一区二区三区黑人孕妇 | 可以看黄的视频 | 粉嫩av久久一区二区三区 | 在线一区 | www亚洲免费国内精品 | 国产美女精品视频 | 日韩一区二区三区在线 | 免费不卡av | 日韩插插 | 精品一区二区三区在线观看 | 日日操操操 | 亚洲国产精品久久 | 天天爽夜夜爽精品视频婷婷 | 亚洲综合大片69999 | av天天澡天天爽天天av | 欧美日韩大片 | 日韩免费一区二区 | 成人网址在线观看 | 99久久免费精品 | 久久99精品久久久 | 国产精品久久久久久 | 日韩一区二区三区在线观看 | 久久久久久亚洲精品 | 中文字幕 在线观看 | 亚洲精品一区二区 | 午夜亚洲 | 91精品国产91 | 亚洲精品视频在线播放 | 人碰人操 | 国产精品国产a级 | 午夜视频一区二区三区 | 九九成人 | 成人做爰9片免费看网站 | 丝袜 亚洲 另类 欧美 综合 | 久久久久久一区 | 国产精品地址 | 成人在线免费av | 国产精品欧美一区二区三区不卡 | 欧美日韩精品一区 |