讓AI像人類一樣認知真實世界！UCLA谷歌強強聯手，長時記憶+3D空間理解超越基線16.5%

2025-06-04 11:08:28

人工智能

3DLLM-MEM模型通過“動態融合”機制，僅需處理與當前任務相關的記憶片段，計算成本比“全記憶存儲”降低，同時保持高推理精度。

想象一下，你在一個陌生的房子里尋找合適的禮物盒包裝泰迪熊，需要記住每個房間里的物品特征、位置關系，并根據反饋調整行動。

這一系列過程依賴人類強大的空間-時間長時記憶。

圖片

如何讓AI在3D環境中像人類一樣思考，一直是具身智能領域的難題。

加州大學洛杉磯分校（UCLA）與谷歌研究院的研究團隊帶來了最新進展：3DLLM-MEM模型與3DMEM-BENCH基準，讓AI首次具備在復雜3D環境中構建、維護和利用長時記憶的能力。

圖片

挑戰：3D環境中的記憶困境

現有大語言模型（LLMs）在文本理解中表現卓越，但當“進入”動態3D環境時卻舉步維艱。存在以下問題：

長時記憶斷層在多房間任務中（如跨客廳、臥室、廚房尋找物品），模型難以關聯不同時空的觀察，常因“遺忘”關鍵信息導致任務失敗。
空間表征缺失傳統模型依賴稀疏或物體中心的表征，無法捕捉3D環境中復雜的幾何關系（如家具布局、物體尺寸對比），而這些細節對任務成敗至關重要（如判斷禮物盒是否“太松”或“太大”）。
時空動態管理環境變化（如移動家具、使用物品）會導致記憶過時，但現有模型缺乏動態更新機制，難以區分“舊記憶”與“新狀態”。

簡單地說，模型無法像人類一樣形成“認知地圖”并靈活調用記憶的核心問題在于缺乏針對3D空間-時間的記憶建模。

突破：3DMEM-BENCH基準與3DLLM-MEM模型

圖片

為系統評估具身智能的記憶能力，研究團隊構建了3DMEM-BENCH——首個3D長時記憶評估基準。

其核心特點包括：

1.大規模與多樣性

包含26,000+軌跡、1,860個具身任務（從簡單物品收集到復雜跨房間推理），覆蓋182個3D場景（平均每個場景18個房間）。

2.多維度評估

具身任務：要求模型執行跨房間動作鏈（如“在客廳找到泰迪熊，到臥室試裝小盒子，再到廚房試裝大盒子，最終返回客廳選擇最合適的盒子”）。
時空問答（EQA）：測試空間關系推理（如“任務完成后，站在餐桌前，梳妝臺在左側還是右側？”）。
場景描述：總結多房間記憶中的共性與差異（如“之前的房間有櫥柜和床，當前房間獨特之處在于整面墻的衣柜”）。

3.難度分級

任務分為簡單（3房間）、中等（5房間）、困難（10房間），并包含“野外挑戰”（從未見過的物體或場景），全面考察模型泛化能力。

4.對比現有基準

相較于ALFWorld、Behavior-1K等，3DMEM-BENCH首次聚焦“長時記憶”與“3D空間理解”的結合，填補了領域空白。

圖片

針對記憶難題，研究團隊提出3DLLM-MEM模型——一款雙記憶系統驅動的具身智能體。

其設計靈感源自人類認知結構：

1.雙記憶架構

工作記憶（Working Memory）：存儲當前觀察（如“當前房間的書架上有紅色盒子”），容量有限但動態更新。
情景記憶（Episodic Memory）：以密集3D表征存儲歷史觀察與交互（如“廚房的藍色盒子太大，臥室的綠色盒子太小”），可擴展且包含時空位置信息。

2.記憶融合模塊

工作記憶作為“查詢”，從情景記憶中選擇性提取與任務相關的特征（如“尋找合適禮物盒”時，重點關注曾見過的盒子尺寸、位置），通過注意力機制融合兩者，既避免記憶過載，又確保關鍵信息不被遺漏。

3.動態更新機制

當環境變化（如移動盒子），模型自動更新情景記憶，確保記憶與當前狀態一致。

圖片

3DLLM-MEM的核心優勢在于：通過“選擇性記憶檢索+時空特征融合”，模型在復雜環境中既能聚焦任務關鍵信息，又能維持記憶效率。

驗證：超越基線16.5%的記憶能力

圖片

在3DMEM-BENCH上的實驗表明，3DLLM-MEM顯著優于現有方法。

1.具身任務成功率

在最具挑戰性的“野外困難任務”中，3DLLM-MEM成功率達27.8%，遠超基線模型（如“最近記憶”僅5%，“檢索增強記憶”僅10.6%）。
在“野外任務”整體成功率上，3DLLM-MEM達32.1%，比最強基線高16.5%。

2.時空推理能力

在EQA任務中，3DLLM-MEM在“空間關系”“跨房間對比”等子任務上準確率超60%，而傳統3D-LLM因上下文限制，準確率不足10%。

3.記憶效率