世界模型版《模擬人生》:AI虛擬小人街頭演講拉票,GPT-4o選舉獲勝
當(dāng)世界模型高度進(jìn)化后,里面的「人」都在做些什么?
有人會(huì)進(jìn)行街頭演說(shuō),吸引到了不少聽(tīng)眾,小孩會(huì)和機(jī)器狗玩:
有人會(huì)當(dāng)街作案,警察前去抓捕,又有人會(huì)在大庭廣眾之下求婚:
本周五,來(lái)自馬薩諸塞大學(xué)阿默斯特分校(UMass Amherst)、約翰霍普金斯大學(xué)、卡耐基梅隆大學(xué)的研究者們提出了一個(gè)神奇的研究:虛擬社區(qū)(Virtual Community)。
虛擬社區(qū)將真實(shí)世界的地理空間數(shù)據(jù)與生成模型相結(jié)合,為多種不同類型的智能體創(chuàng)建了一個(gè)具有社會(huì)根基的交互式、可擴(kuò)展開(kāi)放世界場(chǎng)景。
- 論文:Virtual Community: An Open World for Humans, Robots, and Society
- 論文鏈接:https://virtual-community-ai.github.io/paper.pdf
- 項(xiàng)目鏈接:https://virtual-community-ai.github.io/
該工作昨晚提交,立即吸引了一些 AI 圈大佬的關(guān)注,紐約大學(xué)助理教授謝賽寧表示,這對(duì)于智能體研究來(lái)說(shuō)意義重大。
虛擬社區(qū)提供了一個(gè)統(tǒng)一的框架,用于模擬社區(qū)中人類和機(jī)器人豐富的社交和物理互動(dòng)。它建立在通用物理引擎之上,并以現(xiàn)實(shí)世界的 3D 場(chǎng)景作為基礎(chǔ)。作者為人類智能體實(shí)現(xiàn)了一個(gè)虛擬角色模擬框架,而其中的機(jī)器人模擬則主要繼承自 Genesis。
虛擬社區(qū)通過(guò)在環(huán)境中填充配置機(jī)器人、人類角色配置文件和社會(huì)關(guān)系網(wǎng)絡(luò)的智能體(由 LLM 提供支持)來(lái)支持基于 3D 場(chǎng)景的智能體社區(qū)生成。
這一個(gè)個(gè)人物,都是有詳細(xì)背景資料和活動(dòng)時(shí)間表的,他們也會(huì)按照這些設(shè)定行事。他們的社會(huì)關(guān)系以群組的形式構(gòu)建,每個(gè)群組包含一組智能體、文本描述和指定的群組活動(dòng)場(chǎng)所,所以這些人物會(huì)被連接成一個(gè)有凝聚力的社群。
虛擬社區(qū)會(huì)基于真實(shí)世界地理空間數(shù)據(jù)生成場(chǎng)景及相應(yīng)的智能體。如下圖所示:場(chǎng)景生成組件(A)使用生成模型來(lái)增強(qiáng)紋理,并精煉粗糙的 3D 數(shù)據(jù),同時(shí)精煉地理空間數(shù)據(jù)以簡(jiǎn)化幾何結(jié)構(gòu)。它還利用生成方法創(chuàng)建交互式對(duì)象和精細(xì)的室內(nèi)場(chǎng)景。智能體生成組件(B)利用 LLM 基于場(chǎng)景描述生成智能體角色和社交關(guān)系網(wǎng)絡(luò)。(C)再基于 Genesis 引擎模擬開(kāi)放世界場(chǎng)景中的虛擬角色社區(qū)和機(jī)器人。
令人感興趣的是,它可以模擬世界任何地方的 3D 場(chǎng)景,為智能體構(gòu)建出一個(gè)大規(guī)模社區(qū) —— 從紐約到倫敦、阿姆斯特丹、丹佛等等。
現(xiàn)有的 3D 地理空間數(shù)據(jù) API 在數(shù)量和多樣性方面提供了豐富的數(shù)據(jù),但它們通常包含大量噪聲,并缺乏紋理和幾何形狀細(xì)節(jié)。為了彌補(bǔ)這一差距,作者提出了一種在線流程,對(duì)幾何和紋理進(jìn)行全面的清理和增強(qiáng)。該流程包含四個(gè)步驟:網(wǎng)格簡(jiǎn)化、紋理細(xì)化、對(duì)象放置和自動(dòng)注釋。
作者使用此流程生成了 35 個(gè)全球不同城市的帶注釋場(chǎng)景:
虛擬社區(qū)其中還具有正常運(yùn)行的交通系統(tǒng),包括行人移動(dòng)、車輛流動(dòng)和公共交通運(yùn)營(yíng)。作者開(kāi)發(fā)了基于 OSM 數(shù)據(jù)的自動(dòng)化動(dòng)態(tài)交通生成機(jī)制,能夠快速重建城市道路網(wǎng)絡(luò)并在全球范圍內(nèi)實(shí)現(xiàn)自主交通模擬。
作為一個(gè)幫助未來(lái)人與機(jī)器協(xié)作進(jìn)行訓(xùn)練的平臺(tái),機(jī)器人將成為虛擬社區(qū)不可或缺的一部分,它們無(wú)處不在并會(huì)其中的「人類」進(jìn)行無(wú)縫互動(dòng)。目前看到已經(jīng)導(dǎo)入的機(jī)器人就有宇樹(shù)的人形機(jī)器人、波士頓動(dòng)力的機(jī)器狗,還有四軸無(wú)人機(jī)、谷歌機(jī)器人等。
利用虛擬社區(qū)所釋放的新功能,作者引入了兩項(xiàng)新的具身化多智能體任務(wù):一項(xiàng)涉及多名人類智能體的競(jìng)選任務(wù),以及一項(xiàng)同時(shí)涉及機(jī)器人和人類智能體的社區(qū)助理任務(wù)。為了成功完成這些任務(wù),智能體需要具備在社區(qū)環(huán)境中進(jìn)行規(guī)劃的能力,以及與其他智能體互動(dòng)的社交智能。
作為這兩項(xiàng)任務(wù)的基礎(chǔ),如果沒(méi)有分配到特定任務(wù),社區(qū)中的智能體會(huì)遵循默認(rèn)的日常計(jì)劃和慣例。在每輪游戲中,都會(huì)選擇多個(gè)智能體并為其分配一項(xiàng)任務(wù)。當(dāng)智能體被賦予任務(wù)時(shí),它會(huì)暫停日常計(jì)劃,專注于完成社區(qū)中分配的社交任務(wù)。
在「競(jìng)選」任務(wù)中,候選人智能體必須高效地規(guī)劃與社區(qū)內(nèi)的選民智能體建立聯(lián)系并進(jìn)行說(shuō)服。由于選民的性格和社會(huì)關(guān)系各不相同,一些選民最初可能傾向于某些候選人,這就要求每位候選人制定適應(yīng)性策略,以在整個(gè)選舉過(guò)程中影響和改變選民的意見(jiàn)。
結(jié)果如下圖所示,采用 GPT-4o 主干的候選人比采用 GPT-3.5-turbo 主干的候選人擁有更高的平均得票率和轉(zhuǎn)化率,這意味著它更有能力在大多數(shù)場(chǎng)景下改變選民的觀點(diǎn)。
社區(qū)助手任務(wù)的場(chǎng)景則是兩個(gè)異構(gòu)機(jī)器人在開(kāi)放世界環(huán)境中合作協(xié)助人類。這些任務(wù)要求智能體進(jìn)行合作規(guī)劃,以協(xié)助人類化身進(jìn)行日常活動(dòng) —— 搬運(yùn),即智能體陪同人們外出并幫助搬運(yùn)物品;以及遞送,即智能體將物品從源位置(室內(nèi)或室外)運(yùn)送到目的地。
實(shí)驗(yàn)結(jié)果顯示,兩種基線方法在交付方面的表現(xiàn)均優(yōu)于攜帶,這反映了在動(dòng)態(tài)開(kāi)放世界中同時(shí)操控物體和跟隨人類的極高難度。
作者希望虛擬社區(qū)工作能夠幫助人們大規(guī)模進(jìn)行未來(lái)的社會(huì)智能研究,包括:1)機(jī)器人如何智能地合作或競(jìng)爭(zhēng);2)人類如何發(fā)展社會(huì)關(guān)系和建立社區(qū);3)智能機(jī)器人和人類如何在開(kāi)放世界中共存。
以下為該研究的團(tuán)隊(duì)成員:
更詳細(xì)的內(nèi)容,可參閱論文原文。