讓AI像人類一樣認知真實世界!UCLA谷歌強強聯手,長時記憶+3D空間理解超越基線16.5%
想象一下,你在一個陌生的房子里尋找合適的禮物盒包裝泰迪熊,需要記住每個房間里的物品特征、位置關系,并根據反饋調整行動。
這一系列過程依賴人類強大的空間-時間長時記憶。
圖片
如何讓AI在3D環境中像人類一樣思考,一直是具身智能領域的難題。
加州大學洛杉磯分校(UCLA)與谷歌研究院的研究團隊帶來了最新進展:3DLLM-MEM模型與3DMEM-BENCH基準,讓AI首次具備在復雜3D環境中構建、維護和利用長時記憶的能力。
圖片
挑戰:3D環境中的記憶困境
現有大語言模型(LLMs)在文本理解中表現卓越,但當“進入”動態3D環境時卻舉步維艱。存在以下問題:
- 長時記憶斷層在多房間任務中(如跨客廳、臥室、廚房尋找物品),模型難以關聯不同時空的觀察,常因“遺忘”關鍵信息導致任務失敗。
- 空間表征缺失傳統模型依賴稀疏或物體中心的表征,無法捕捉3D環境中復雜的幾何關系(如家具布局、物體尺寸對比),而這些細節對任務成敗至關重要(如判斷禮物盒是否“太松”或“太大”)。
- 時空動態管理環境變化(如移動家具、使用物品)會導致記憶過時,但現有模型缺乏動態更新機制,難以區分“舊記憶”與“新狀態”。
簡單地說,模型無法像人類一樣形成“認知地圖”并靈活調用記憶的核心問題在于缺乏針對3D空間-時間的記憶建模。
突破:3DMEM-BENCH基準與3DLLM-MEM模型
圖片
為系統評估具身智能的記憶能力,研究團隊構建了3DMEM-BENCH——首個3D長時記憶評估基準。
其核心特點包括:
1.大規模與多樣性
包含26,000+軌跡、1,860個具身任務(從簡單物品收集到復雜跨房間推理),覆蓋182個3D場景(平均每個場景18個房間)。
2.多維度評估
- 具身任務:要求模型執行跨房間動作鏈(如“在客廳找到泰迪熊,到臥室試裝小盒子,再到廚房試裝大盒子,最終返回客廳選擇最合適的盒子”)。
- 時空問答(EQA):測試空間關系推理(如“任務完成后,站在餐桌前,梳妝臺在左側還是右側?”)。
- 場景描述:總結多房間記憶中的共性與差異(如“之前的房間有櫥柜和床,當前房間獨特之處在于整面墻的衣柜”)。
3.難度分級
任務分為簡單(3房間)、中等(5房間)、困難(10房間),并包含“野外挑戰”(從未見過的物體或場景),全面考察模型泛化能力。
4.對比現有基準
相較于ALFWorld、Behavior-1K等,3DMEM-BENCH首次聚焦“長時記憶”與“3D空間理解”的結合,填補了領域空白。
圖片
針對記憶難題,研究團隊提出3DLLM-MEM模型——一款雙記憶系統驅動的具身智能體。
其設計靈感源自人類認知結構:
1.雙記憶架構
- 工作記憶(Working Memory):存儲當前觀察(如“當前房間的書架上有紅色盒子”),容量有限但動態更新。
- 情景記憶(Episodic Memory):以密集3D表征存儲歷史觀察與交互(如“廚房的藍色盒子太大,臥室的綠色盒子太小”),可擴展且包含時空位置信息。
2.記憶融合模塊
工作記憶作為“查詢”,從情景記憶中選擇性提取與任務相關的特征(如“尋找合適禮物盒”時,重點關注曾見過的盒子尺寸、位置),通過注意力機制融合兩者,既避免記憶過載,又確保關鍵信息不被遺漏。
3.動態更新機制
當環境變化(如移動盒子),模型自動更新情景記憶,確保記憶與當前狀態一致。
圖片
3DLLM-MEM的核心優勢在于:通過“選擇性記憶檢索+時空特征融合”,模型在復雜環境中既能聚焦任務關鍵信息,又能維持記憶效率。
驗證:超越基線16.5%的記憶能力
圖片
在3DMEM-BENCH上的實驗表明,3DLLM-MEM顯著優于現有方法。
1.具身任務成功率
- 在最具挑戰性的“野外困難任務”中,3DLLM-MEM成功率達27.8%,遠超基線模型(如“最近記憶”僅5%,“檢索增強記憶”僅10.6%)。
- 在“野外任務”整體成功率上,3DLLM-MEM達32.1%,比最強基線高16.5%。
2.時空推理能力
在EQA任務中,3DLLM-MEM在“空間關系”“跨房間對比”等子任務上準確率超60%,而傳統3D-LLM因上下文限制,準確率不足10%。
3.記憶效率
3DLLM-MEM模型通過“動態融合”機制,僅需處理與當前任務相關的記憶片段,計算成本比“全記憶存儲”降低,同時保持高推理精度。
典型案例包括:在“準備早餐”任務中,3DLLM-MEM模型先在廚房尋找咖啡機未果,轉而利用記憶中“餐廳有茶壺”的信息,調整策略煮茶完成任務,體現了靈活的記憶調用與任務規劃能力。
盡管3DLLM-MEM已實現重大突破,研究團隊也指出其局限性:目前模型依賴模擬器的高層動作預設,未來需與底層導航和控制結合。
論文連接: https://arxiv.org/abs/2505.22657項目主頁: https://3dllm-mem.github.io