清華、中南開源3D交互實體AI Agent LEGENT
我們常見的AI Agent都是無法看到實體的,例如,RPA、智能按鍵精靈、AutoGPT等。雖然它們可以自動完成一些日常工作,但你是無法看到其真實身體。
清華大學、中南大學的研究人員聯合開源了一款可視化3D交互實體AIAgent模型LEGENT,使用戶可以在3D虛擬空間中與實體AI代理進行互動。
「AIGC開放社區」通過在線demo體驗了一下這個代理,非常有趣就像是玩一款游戲一樣。只需發送特定指令就可以讓AI做一些日常動作,例如,把汽車玩具放在書本上;把地上的筆撿起來給你等。
LEGENT主要由場景、智能體(Agent)和界面三大塊組成,同時融入了大語言模型和多模態模型,以便更好地理解用戶的文本指令。
LEGENT的場景模塊通過基于游戲引擎的實時物理模擬,為智能體的學習和決策提供一個逼真的3D環境。這包括精確模擬的重力、摩擦力和碰撞動力學,使得智能體能夠更加自然地與環境互動,為學習和決策提供了必要的物理信息。
場景中的3D對象不僅有逼真的視覺效果,還能夠進行復雜的交互操作。例如,智能體可以抓取、搬運、放置和與這些對象互動,包括動態結構如門和抽屜的操作。這種高度的交互性為智能體提供了豐富的操作體驗,是學習和模擬現實世界任務的任務。
此外,研究人員還為場景模塊設計了靈活的可擴展性,允許開發人員導入自定義的3D對象,包括用戶設計的模型、現有數據集的對象,以及通過生成模型創建的對象,方便應用在不同的業務場景中。
為了使LEGENT的智能體更具備擬人化的能力,研究人員加入了很多智能化功能。
LEGENT的智能體具備“自我中心視覺”特性,類似于人類通過自己的眼睛觀察世界。這種視覺系統使智能體能夠從第一人稱視角捕捉環境信息,為執行任務提供了直觀的視覺輸入。
在視覺的幫助下,使智能體能夠執行一系列預定義的動作,例如,導航、物體操縱和通信。這些動作可以幫助智能體快速適應不同的新環境,甚至是真實世界的場景中,并且動作是連續性的操作,例如,移動一定距離或旋轉特定角度,而不是簡單的離散動作。
為了幫助用戶更好地操作與智能體交流,研究人員將LEGENT的UI設計得像視頻小游戲一樣直觀,可以通過鍵盤和鼠標直接與智能體和環境進行指令交互。
此外,LEGENT還提供了場景生成和行為軌跡生成的界面。場景生成界面支持程序生成和語言指導生成兩種方式,用戶可以使用JSON格式輕松定制場景。
行為軌跡生成界面則專門為訓練大型多模態模型而設計,能夠高效生成包括第一人稱視覺觀測和對應動作的訓練數據集。
LEGENT的部署非常簡單、高效可以在普通PC上運行,無需特定的硬件要求或復雜的配置。還支持與遠程服務器的連接,便于訓練和部署增強其可訪問性。
開源地址:https://github.com/thunlp/LEGENT?tab=readme-ov-file
論文地址:https://arxiv.org/abs/2404.18243
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
