Meta最新!PARTNR:具身多智能體任務中規劃與推理的基準測試框架
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面&出發點
本文提出了一個人機協作中的規劃與推理任務基準(PARTNR),旨在研究家庭活動中的人機協調。PARTNR任務展現了日常任務的特點,如空間、時間和異構agent能力約束。我們采用大型語言模型(LLMs)構建了一個半自動化的任務生成流程,并融入了循環中的模擬以進行實現和驗證。PARTNR是同類基準中規模最大的,包含10萬個自然語言任務,涉及60棟房屋和5819個獨特物品。圍繞規劃、感知和技能執行等維度,對PARTNR任務上的最新大語言模型(SoTA)進行了分析。分析結果顯示,SoTA模型存在顯著局限性,如協調性差、任務跟蹤失敗以及錯誤恢復能力不足。當大型語言模型與人類真實用戶配對時,它們所需的步驟數是兩人協作的1.5倍,比單個人類多1.1倍,這凸顯了這些模型有待提升的潛力。論文還進一步表明,使用規劃數據對較小的大型語言模型進行微調,可以實現與體積為其9倍的大型模型相當的性能,同時在推理速度上快8.6倍。PARTNR凸顯了協作式實體agents面臨的重大挑戰,并旨在推動該領域的研究發展。
Code: https://github.com/facebookresearch/partnr-planner
Website: https://aihabitat.org/partnr
內容出自國內首個具身智能全棧學習社區:具身智能之心知識星球,這里包含所有你想要的。
一些介紹
想象這樣一個家用機器人:它能像人與人之間的互動那樣,使用自然語言與人類在日常活動中協作。這種場景需要兩個關鍵特性:機器人與人類之間的動態協作,以及使用自然語言進行交流。當前具身人工智能(embodied AI)的基準測試通常只滿足其中一個條件;要么機器人是獨立運作的,要么任務不是用自然語言指定的。盡管具身人工智能領域取得了顯著進展,但在評估機器人在協作環境中的表現的現實基準測試方面仍存在空白。為了彌補這一空白,我們推出了人機協作中的規劃與推理任務基準(PARTNR),這是一個新穎的基準測試,用于評估具身人工智能agent在模擬室內環境中與人類在各種家庭活動上的協作能力。
PARTNR由10萬個自然語言指令和與之配套的評價函數組成,重點關注四種任務類型:(1)無約束任務,其中子任務可以由任一agent以任何方式完成,(2)包含空間約束的空間任務,(3)需要按順序執行的時間任務,以及(4)包含無法由其中一個agent完成的動作的異構任務。除了長時規劃、新型部分可觀察環境以及大狀態和動作空間等傳統挑戰外,PARTNR還強調了有效協作動態(如任務分配和跟蹤合作伙伴的進度)的必要性。
創建這樣一個具有大規模自然語言任務和定制評價函數的基準測試面臨著重大挑戰。當前的基準測試通常依賴于模板化任務或由人類設計的任務和評價,這可能限制了數據集的多樣性或規模。為了克服這一問題,本文提出了一種使用大型語言模型(LLMs)并結合循環模擬接地(simulation-in-the-loop grounding)的半自動化生成方法。首先,大型語言模型生成任務和評價函數,這些函數與模擬房屋中的物品和家具相關聯。接下來,采用循環模擬來過濾掉幻覺和不可行的指令,并通過人工標注來增強多樣性和準確性。然后,利用一套經過驗證的1000條指令和評價函數以及多樣化的模擬房屋,通過上下文提示引導大型語言模型創建10萬個任務。
由于PARTNR包含自然語言任務,且大型語言模型(LLMs)在規劃方面已展現出顯著成效,我們探索了如何提示和微調LLMs,以評估它們在協作場景中的有效性。我們研究了環境可觀性(即完全可觀或部分可觀)、集中式與分散式多智能體控制、學習到的或特權機器人技能、以及基于LLMs的規劃中對3D世界信息進行接地的不同方式的影響。除了這些使用合成人類伙伴進行的自動化評估外,還進行了包含真實人類參與的評估,讓人們單獨執行任務、與人類伙伴一起執行任務或與LLMs指導的機器人伙伴一起執行任務??傮w而言,發現LLMs在協調、任務跟蹤以及處理感知和技能錯誤方面存在困難。雖然人類能夠解決93%的PARTNR任務,但在非特權條件下,當前最先進(SoTA)的LLMs僅能成功完成30%的任務。此外,在分散式多智能體設置中,由于跟蹤伙伴動作的能力較差,導致出現了多余動作,完成任務所需的步驟比單智能體多1.3倍。相比之下,在我們的包含真實人類參與的實驗中,人類搭檔的表現優于單獨的人類,這凸顯了改進LLMs協作策略的潛力。LLMs還難以從技能失敗和感知接地錯誤中恢復,當移除特權技能和特權感知時,其性能會降低。在比較模型大小時,我們發現經過微調的較小模型Llama3.1-8B的性能與未經微調的Llama3.1-70B相當,但推理速度卻快了8.6倍。在與真實人類共同參與的評估中,這一更快的推理速度發揮了重要作用,因為經過微調的模型所需步驟更少,為人類分擔了更多任務。
PARTNR能夠在各種協作場景中實現對具身智能體的可重復、大規模和系統性的評估。通過系統性的評估,我們揭示了當前基于LLM的規劃器的關鍵局限性,為未來的研究指明了有趣的方向。
相關工作一覽
基于語言的具身人工智能基準測試。大量關于具身人工智能中語言基準測試的工作都集中在導航或具身問答上,這些任務涉及導航和信息收集,但不需要智能體修改其環境。與本文的工作更為接近的是指令遵循基準測試,在這些基準測試中,智能體通過與環境的交互來完成通過語言描述的任務,盡管任務的多樣性有限。相比之下,我們利用大型語言模型(LLMs)生成多樣化的任務定義和場景初始化,并將其擴展到多智能體設置中。使用LLMs擴大任務生成的規模這一想法在最近的一些工作中得到了探索。然而,這些工作往往側重于相對短期內的單智能體任務,而本文考慮的是長期的多智能體問題。表1將相關基準測試與PARTNR進行了比較。
具身多智能體基準測試。多項工作已經提出了具身多智能體基準測試。其中許多基準測試都集中在簡單2D環境中的協調問題上,這限制了它們在現實世界場景中的應用。最近的工作開發了研究更真實環境和活動中協作的基準測試,這些基準測試關注在大型、部分可觀察的3D環境中重新排列物體或家具,或在柜臺空間內操作物體。然而,這些基準測試通常局限于一組預定義且數量有限的任務,這些任務往往不是用自然語言描述的,并且主要涉及物體的重新排列。相比之下,PARTNR涵蓋了一個開放的任務集,每個任務都用自然語言描述,要求智能體在空間和時間的約束下重新排列物體,并要求執行只能由人類智能體完成的異構動作(例如洗碗或打開烤箱)。
Benchmark生成
我們推出了PARTNR基準測試,旨在訓練和評估機器人與人類合作解決自然語言任務的能力。PARTNR涵蓋了四種類型的任務:(1)無約束任務,即子任務可以由任一智能體以任何方式完成。例如,“讓我們把所有臟盤子移到水槽里?!保?)空間任務,需要推理物體的空間位置。例如,“讓我們把書放在書架上,彼此緊挨著?!保?)時間任務,子任務的執行順序很重要。例如,“讓我們先把餐桌上的蠟燭拿走,再把盤子端到桌上?!保?)異構任務,涉及超出機器人能力的動作。例如,“讓我們在把盤子放到架子上之前先把它們洗干凈。”在機器人的技能不支持洗滌的場景中,完成這項任務需要對智能體的能力進行推理。我們的基準測試包括自然語言指令和相應的評估函數,這兩者都是使用大型語言模型(LLMs)大規模生成的。具體來說,我們生成了1000條經過人工驗證的指令和相應的評估函數,并將它們作為即時提示示例,擴展到其他具有不同布局和物體的場景中的100000項任務。我們自動生成的一個獨特之處在于,在生成循環中整合了一個實體模擬器,這大大減少了大型語言模型可能出現的幻覺和不可行動作等錯誤。
1 基于仿真循環的任務指令生成
盡管基于大型語言模型(LLM)的任務生成在之前的文獻中已有研究,但這些生成的任務并未超出用戶創建的 in-context prompts的范圍。在PARTNR中,使用了基于仿真循環的生成技術,將大語言模型與環境、智能體和可用動作相結合。具體來說,在Habitat 3.0模擬器中實例化了一個仿真環境,該環境填充了HSSD數據集,包含60棟獨特的房屋和5819個OVMM對象。模擬房屋被解析為房間和可用家具的列表,并與所有可用目標一起傳遞給大語言模型。利用這些信息,要求大語言模型在場景中生成自由形式、可行的任務,以及初始場景狀態描述。例如,如果生成的任務是“清理客廳的餐具”,大型語言模型應該生成一個客廳內有多個餐具的初始場景。在這個階段,還會向場景中添加額外的目標,以在環境中制造混亂。任務、初始狀態和混亂一旦生成,就會在模擬器中實例化,并過濾掉不可行的指令。例如,如果房屋沒有客廳,“清理客廳的餐具”就是無效的。同樣,如果生成的任務需要模擬器不支持的動作,如折疊,則該任務會被過濾掉。通常,幻覺的產生率很高,導致大量情節被丟棄。我們觀察到,在過濾掉不可行的指令后,生成指令的多樣性通常受到限制。例如,大多數指令都使用相同的對象(如餐具)或類似的房間(如廚房或餐廳)。為了增加生成任務的多樣性,我們進行了手動標注,以確保任務和對象的多樣性,例如,通過修改指令以激發特定特征,來維持無約束、空間、時間和異構任務的平衡分布。這一過程產生了1000個經過人工標注和仿真驗證的任務。
對于大規模生成而言,這種手動標注并不實際。相反,我們利用這1000條經過人工標注的指令作為提示中的示例,來擴展生成規模。向大語言模型提供房屋描述和一個示例任務,并指示它修改任務以適應新的房屋。例如,將任務“清理客廳里的所有餐具”修改為“清理臥室里的所有玩具”。這樣做可以在保持原始標注指令集多樣性的同時,確保在模擬器中成功實例化的高可能性。從質量上看,我們過濾或編輯了約90%的自由形式生成的指令,而只有約10%的擴展指令需要這樣做。使用LLama3-70B-Instruct來生成所有指令。最后,所有任務都經過基于人類反饋的循環過濾。在這一步中,人類使用我們的基于人類反饋的工具嘗試完成任務,并消除難以檢測的物理上不可行的指令,比如要求一個物體同時出現在兩個位置。圖2概述了我們的流程。
2 評價函數生成
為了判斷智能體是否成功完成了指令“清理客廳里的所有餐具”,我們需要一個評價函數來驗證是否已從任何客廳中移除了所有勺子、叉子和其他餐具。然而,手動標注任務所需的所有重新排列和狀態變化既耗時又由于每個任務的獨特性而在大規模上難以實現。與指令生成類似,我們采用大型語言模型(LLM)來創建一個評價函數,該函數無需任何手動標注即可評估任務完成情況。具體來說,利用大型語言模型生成基于謂詞的Python程序的能力,這需要使用三種類型的API:一個命題列表,指示實體之間必須滿足的關系;一組依賴項,指示何時應查詢命題;以及一組約束,指示命題必須如何滿足。為這些組件中的每一個定義了一個富有表達力的詞匯,以便對基準測試中的所有任務進行評估(例如,圖3)。密切相關的評價系統包括使用PDDL或BDDL定義任務。選擇構建一個新的基于Python的評價系統,因為這兩個系統都無法在保持人類和大型語言模型可解釋性的同時評估PARTNR任務;例如,BDDL不支持隨時間變化的評估。由于PARTNR任務具有時間依賴性(例如,多步驟重新排列),因此評價函數的輸入是任務執行期間模擬器狀態的完整序列。評價函數返回三個指標:(1)完成百分比(PC ∈ [0, 1]),即相對于約束而言已滿足的命題的百分比;(2)成功(S ∈ {True, False}),衡量任務是否成功完成,定義為S := (PC = 1);以及(3)失敗解釋(FE),一種人類和大型語言模型可解釋的語言描述,用于說明智能體未能完成任務的原因。
使用CodeLLama-70B-instruct來生成評價函數。如圖3所示,生成完美的評價函數并非易事。大型語言模型(LLM)必須根據自然語言指令和特定的模擬環境,正確分類所有可能的動作空間,這可能相當復雜。例如,在圖3中,指令“把植物放在架子上”指的是“架子”,但房間里有兩個架子。評價函數必須允許選擇任意一個架子,同時要求放置所有植物,并最終考慮相鄰關系。命題或約束中的任何錯誤或缺失值都會導致評價函數失效。因此,我們觀察到LLM生成的錯誤率很高,特別是關于錯誤命題和時間順序約束的錯誤。
為了減輕這些不準確性,遵循與指令生成相似的半自動化程序。首先為1000條人工標注的指令生成評價函數,并進行手動標注以進行修正。這產生了包含1000對經過人工驗證的指令和評價函數的數據集。接下來,為擴展的100000條指令集生成評價。請注意,擴展指令是通過向LLM提供標注集中的示例指令來生成的。我們檢索相應的標注評價函數,并將其提供給LLM。這與檢索增強生成等方法類似,并通過人工檢查發現,將評價函數生成的準確率從50%提高到92%。最后一步是,要求人類用戶使用我們基于人類反饋的評價工具解決所有PARTNR任務。所有在人類用戶6次嘗試(3次單人嘗試,3次多人嘗試)后仍未解決的任務都被視為不可行,并從數據集中刪除。我們發現,自動化生成的指令中約有90%準確,評價函數中約有92%準確,綜合生成準確率為90% × 92% = 83%。
3 PARTNR Dataset
PARTNR數據集由來自HSSD數據集的37個訓練場景中的100,000個片段、13個驗證場景中的1,000個片段和10個測試場景中的1,000個片段組成。在擴展生成后,所有驗證集和測試集的片段都經過了人工標注以確保正確性,同時訓練集的一個包含2,000個片段的子集也進行了人工標注。關于擴展生成片段的正確性分析。下面分析下該數據集的特點和多樣性。
特點:如前所述,PARTNR數據集側重于四種任務類型:無約束、空間、時間和異構。在圖4中展示了這些任務類型在測試集中的分布情況;驗證集的分布情況與之相似。PARTNR數據集在這些維度上獨立且聯合地評估協作。其他值得關注的特性包括依賴重排(例如,“把它們放在同一張桌子上”)和同一對象的多步重排(例如,“把杯子拿到水槽邊,洗干凈,然后放進櫥柜里”)。7%的任務包含依賴重排,6%的任務包含多步重排。任務平均需要滿足4.7個命題(表明完成任務所需的步驟數量)。
多樣性:PARTNR數據集中任務的多樣性在很大程度上得益于循環模擬生成,該生成方法利用了豐富的HSSD場景和OVMM對象集。因此,PARTNR數據集中的任務涉及并需要對155種獨特對象類型、20類家具和13種房型進行推理。請注意,每條指令在每個房屋中的實例化都帶來了其自身的多樣性。例如,“把筆記本電腦搬到辦公桌上”,這條指令在每個房屋中都獨特地指定了辦公室和桌子的位置,以及不同指令中不同的筆記本電腦實例。
實驗和分析
我們利用PARTNR探究了最先進的規劃和感知方法如何在新環境中處理自然語言任務,以及如何與未見過的伙伴進行協調。由于PARTNR包含由語言指定的各種時空任務,這里主要在基線中使用大型語言模型(LLMs)進行規劃,并研究了以下變體:(1)零樣本提示、檢索增強生成或微調,(2)集中式規劃與分散式規劃,(3)部分可觀察環境與完全可觀察環境,(4)學習得到的低級機器人技能與理想的低級機器人技能,以及(5)特權感知與非特權感知。
實驗是在Habitat 3.0模擬器中進行的,使用了模擬的Spot機器人。我們為機器人和模擬人類采用了一種兩層分級控制架構,如圖5所示。在高層級上,規劃器從預定義的技能庫(例如,導航、拾取、放置、打開、關閉)中選擇技能。我們還使用了一個具有三層層次結構的文本世界圖,分別表示房間、家具和可移動物體。圖中的每個節點都存儲了一個語義類別(例如,廚房、桌子或杯子)、三維信息(例如,位置或邊界框)和狀態(例如,干凈、已通電)。
1 Baselines
我們按照以下維度對基線進行評估:
1.高級規劃器的變體:
- 啟發式專家:這種方法利用專家設計的啟發式方法和關于任務、環境和評估函數的特權信息,基于人類和機器人的能力預先規劃所有步驟。例如,兩個agent都可能重新排列物體,但只有人類執行清潔、填充和開關任務。
- 零樣本ReAct(ReAct):使用ReAct及其API函數庫或工具庫,使大語言模型(LLM)能夠執行動作。作為觀察,向LLM提供簡潔、當前的世界圖描述以及動作歷史。LLM利用這些信息從[探索房間、導航、打開家具、關閉家具、拾取物體、放置物體、等待、完成]中為機器人選擇一個動作。
- 帶有檢索增強生成(RAG)的ReAct(ReAct-RAG):還評估了帶有RAG的ReAct,以研究在類似任務上的規劃示例是否能提高ReAct的性能。通過從ReAct在2000個任務訓練子集中的成功軌跡中收集數據,構建了一個規劃示例數據庫。在測試時,基于句子相似性從訓練數據集中選擇最相關的規劃軌跡,并將其添加到LLM的提示中。
- 微調后的LLM(Finetuned):本文還研究了使用ReAct基線中成功的軌跡來微調一個較小的LLM(Llama3.1-8B)作為高級規劃器,這些基線使用Llama3.1-70B。這里使用React-RAG數據集,將每個片段拆分為一系列高級規劃動作,僅篩選成功執行的動作。對于每個動作,構建一個包含世界圖和動作歷史的輸入,類似于ReAct。然后使用低秩適配器微調一個LLM,以在給定此輸入的情況下從ReAct片段中預測動作。該模型降低了延遲和計算需求,適合現實世界中的部署。
所有模型生成都受到約束生成的限制,僅輸出對觀察到的對象有效的動作。約束生成極大地減少了LLM典型的幻覺和“語法”錯誤。當兩個agent都調用Done或達到最大模擬步驟或LLM調用時,一個片段即結束。
- 集中式與分散式規劃:
為了研究多agent PARTNR任務中協調的開銷,這里比較了集中式規劃器和分散式規劃器。在集中式規劃中,單個大型語言模型(LLM)根據兩個agent的完整狀態信息為它們決定動作,從而有效地消除了agent之間的任何協調需求。在分散式規劃中,每個agent由不同的LLM控制,每個LLM都需要推斷另一個agent的動作。
- 部分可觀察與完全可觀察:
為了評估當前最先進(SoTA)的語言模型是否能夠探索新環境并識別與任務相關的對象,考慮了一個部分可觀察的設置,其中規劃器知道房屋的布局但不知道目標的位置,因此需要探索。這與完全可觀察的設置形成對比,在完全可觀察的設置中,所有目標的位置都是事先已知的。
- 學習到的與先知低級別機器人技能:
本文研究了學習到的神經網絡技能與先知技能(具有特權模擬信息)對PARTNR任務整體性能的影響。這里為拾取、放置、導航、打開和關閉動作創建了一個學習到的技能庫,并與先知技能進行了性能比較。
- 特權與非特權感知:
為了研究諸如檢測不準確和定位近似等感知挑戰,使用了帶有修改后的ConceptGraphs的非特權世界圖,該圖僅根據agent的RGBD觀測結果構建。隨著agent的探索和動作,這個世界圖將使用機載傳感器進行更新。相比之下,在特權感知下,這些信息可以直接從模擬中獲取。
2 Results and Analysis
指標。使用四個關鍵指標來評估不同設置下的性能。首先,模擬步數指標衡量了agent在模擬環境中完成任務所需的步數,作為效率的一個指標。其次,成功率反映了任務的完成情況,即是否滿足“所有”任務約束。鑒于PARTNR任務的復雜性和長期性,agent通常只能部分完成任務。為了考慮這一點,還報告了完成百分比,它量化了已完成任務“命題”的比例(對于成功的任務,完成百分比為1)。最后,我們通過規劃周期指標來評估規劃器的推理效率,該指標計算每個規劃器在一個情節過程中進行的高級大型語言模型(LLM)調用的次數。在所有實驗中,將規劃器的最大調用次數限制在50次以內。
任務性能分析
表2展示了使用Llama3.1-70B-Instruct模型作為ReAct基線,以及使用微調后的Llama3.1-8B基礎模型作為微調基線。由于PARTNR任務是多agent任務,還需要一個模擬的人類伙伴,使用Llama3.1-70B-Instruct模型并通過ReAct方法對其進行控制。主要發現如下所述。
基于LLM的規劃器在處理PARTNR任務時面臨挑戰。在所有可觀察性和可控性條件下,基于LLM的基線性能均不如具有特權的啟發式專家,原因是任務跟蹤中出現錯誤(未完成所有步驟、步驟順序錯誤或撤銷已完成的步驟),以及語義錯誤(將對象放置在錯誤的家具上或移動錯誤的對象),這表明LLM在任務規劃方面存在差距。
LLM在分散式設置中的協調方面表現不佳。沒有特權訪問伙伴意圖的分散式ReAct基線在任務完成速度上顯著慢于集中式ReAct。這表明,對伙伴進行推理(例如,了解或推斷伙伴的意圖)可以提高PARTNR任務的效率,而當前最先進的LLM在這方面表現不佳。此外,有兩個agent的分散式ReAct甚至慢于單個agent的ReAct(行(e)中的多agent需要3295步,而行(a)中的單agent需要2519步),這表明LLM在協調方面承受著巨大的“負擔”。在4.2.2節關于額外努力的分析中,我們進一步強調了這種協調負擔,我們發現,在分散式設置中,agent最終會更高頻率地重復任務的部分內容或執行不相關的動作。
LLM(大型語言模型)無法從已學習技能的失敗中恢復。當用已學習技能替換Oracle技能時,成功率從0.73下降到0.57(行(e)對比行(h))。這種下降可以歸因于,與具有特權的Oracle技能相比,已學習技能的失敗率更高,且所需的模擬步驟更多。LLM在應對技能錯誤(如未能拾取物體或執行不完整的探索)時難以恢復,從而導致成功率降低。未來的研究可以探索訓練包含低級技能循環的大型模型,使它們能夠在面對此類失敗時學習恢復和重新規劃策略。
LLM對感知錯誤表現出高度敏感性。當用現成的感知模塊替換具有特權的感知時,成功率顯著下降(從行(h)中具有特權、部分世界圖的0.57下降到行(i)中使用Concept-Graphs的0.30)。LLM嚴重依賴世界圖提供的準確世界描述,并且難以糾正諸如誤分類(例如,將架子誤認為是桌子)或房間分配錯誤(例如,將客廳的桌子錯誤地標記為在臥室)等錯誤。像VLM(視覺語言模型)這樣的多模態模型可能在從這類失敗中恢復方面更強大,這留待未來的工作來研究。
微調后的8B模型在性能上與使用70B模型的ReAct相當,但推理速度卻快了8.6倍。我們發現,使用較小8B模型的微調規劃器與使用更大70B模型的ReAct性能相當(在行(e)中,70B模型的成功率為0.73,而在行(g)中,微調后的8B模型的成功率為0.70)。同時發現微調模型在推理速度上快了8.6倍。這表明微調有效地從訓練集中提取了與任務相關的信息,并將其泛化到新的測試任務中。當與人類共同部署時,微調模型所需的步驟更少,并且能夠分擔比70B模型更多的子任務(見表3)。
協作行為與效率分析
表2中的分析揭示了大型語言模型(LLM)在協作中面臨的挑戰,這促使我們更深入地研究具體的協作行為。
機器人承擔了高達60%的任務。我們評估了機器人在從人類那里分擔任務方面的能力,具體方法是測量在成功的PARTNR任務中,機器人執行的子任務占總子任務的比例。盡管單智能體和多智能體的成功率相似(0.73對比0.74),但在去中心化的多智能體環境中,機器人承擔了約60%的子任務,從而減輕了人類的負擔。
去中心化的智能體容易執行多余的任務。智能體有時會執行對任務無用的子任務,如重新排列任務中不需要的物體或重復另一個智能體已經完成的子任務。為了衡量這種多余的努力,我們計算了在一次任務中,智能體的無效動作(即未增加任務完成百分比、未對任務進展做出貢獻的動作)占總成功動作的比例。我們發現,與單智能體相比,在去中心化的多智能體環境中,無效努力增加了300%(見表12),這表明協調負擔顯著增加。
時間和異構任務對LLM來說具有挑戰性。LLM在時間和異構任務上表現困難。與ReAct的無約束任務相比,時間任務的成功率下降了27%,異構任務的成功率下降了20%(見表13)。這凸顯了LLM在推理智能體能力和遵循嚴格順序約束方面的局限性。
人機交互評估
我們基于Habitat 3.0中的Human-in-the-loop基礎設施進行了構建,并將其調整為服務器-客戶端架構,其中服務器托管在AWS上,能夠支持多個客戶端。這使我們能夠使用129名非專業人類參與者對任務進行大規模評估。使用該工具從驗證集和測試集中收集了1000個任務的單用戶和多用戶數據。在單用戶設置中,一名參與者通過鍵盤/鼠標控制在模擬器中的人類角色來完成整個任務(附錄中的圖14展示了我們的HITL界面)。在多用戶設置中,兩名參與者分別控制一個人類角色和一個機器人角色來共同完成任務。這些實驗的目的是研究PARTNR任務中的多用戶動態,并觀察多名人類協作是否比單個人類更高效。最后,我們進行了一項人機實驗,其中一名人類參與者與由大型語言模型(LLM)控制的機器人協作。該實驗旨在評估LLM控制的智能體在與未見過的真實人類協作時的表現。表3顯示了驗證集中任務在單用戶、多用戶、人類-ReAct和人類-微調設置下的成功率(SR)和完成百分比(PC)。此外,我們還測量了每種方法完成任務所需的步數,以及機器人完成的工作量比例(即任務分擔)。我們還通過測量選擇第一個對象所需的步數和無用努力(指對任務完成沒有幫助的動作)來衡量人在回路中的探索效率。這些結果總結在表3中。
人類在PARTNR任務上的表現明顯優于LLM。在單人和多人環境中,人類在PARTNR基準上的成功率均為0.93。相比之下,沒有任何特權信息的ReAct模型的成功率顯著降低至0.30(表2的第(i)行)。這凸顯了LLM在規劃任務性能上的巨大差距。值得注意的是,當與真實人類一起評估時,像ReAct和微調這樣的LLM基線模型的成功率分別為0.92和0.91(表3),因為人類能夠適應LLM的錯誤。另一方面,表2中的模擬人類是一個LLM,它無法從合作伙伴的錯誤中恢復。
在與真實人類協作時,微調后的LLM表現優于ReAct。當與真實人類在回路中一起部署時,微調模型在任務完成上比ReAct更快(微調模型3443步,ReAct 4267步)。它還能從人類那里分擔更多任務(微調模型26%,ReAct 16%)。這表明具有更快推理速度的小型模型可以改善真實世界部署中的人類體驗。
LLM在協調方面存在困難,阻礙了人類的表現。盡管在與人類協作時微調模型比ReAct更快,但兩種方法都比人類單獨完成任務要慢。相比之下,兩名人類一起工作比單個人類完成任務更快(多人2369步,單人3046步)。這一結果與我們在表1中觀察到的自動化評估結果一致,其中多智能體LLM也比單智能體LLM更慢。這一結果進一步證實,LLM在協調方面存在問題;而人類能夠相互協調并分配任務,但去中心化的LLM卻無法做到這一點。
LLM能夠從人類那里分擔任務。盡管上述任務完成步數有所增加,但由微調模型指導的機器人成功地從人類那里分擔了26%的任務。這表明,在與真實人類合作伙伴協作時,LLM仍然能夠提供幫助。盡管如此,仍有很大的改進空間。
一些結論
PARTNR是一個針對多智能體實體任務中的推理與規劃基準,其特點是在60個模擬的多房間房屋中實例化了100,000項自然語言任務,這些房屋中包含5,819個獨特物體。我們采用半自動化的基于大型語言模型(LLM)的pipeline,用于大規模指令和評估功能的生成,該過程使用了基于模擬的循環接地技術。PARTNR展現了日常任務的特點,如時間和空間的限制,并允許對規劃方法進行系統評估。我們發現,在PARTNR任務上,當前最先進的LLM與人類水平的性能之間存在顯著差距。盡管我們最佳的LLM基線在沒有特權信息的情況下僅成功完成了30%的任務,但人類卻能解決93%的任務。此外,LLM在與基于LLM的智能體以及真實人類伙伴的協調中都面臨著挑戰。人類參與的評估(即真實人類與LLM指導的機器人合作)表明,與單獨工作相比,LLM指導的伙伴會降低人類的工作效率。這表明,基于LLM的智能體需要顯著改進,才能在實體任務中成為有效的合作伙伴。PARTNR作為一個具有挑戰性的基準,凸顯了當前模型的重大局限性。