向數字世界AGI邁進!讓智能體直接控制鍵盤、鼠標,與一切軟件交互
通用計算機控制
信息革命產生了數字世界,數字世界為大模型的誕生提供了數據,也最容易實現通用人工智能(AGI)。
向數字世界AGI邁進,北京智源人工智能研究院、新加坡南洋理工大學、北京大學攜手提出通用計算機控制General Computer Control (GCC),即智能體需要像人一樣看屏幕,通過鍵盤、鼠標完成計算機上的所有任務。在過去很長一段時間里,人工智能研究以游戲為場景,而GCC將為通用人工智能研究提供場景,也將進一步促進大模型和AI Agents的落地與產業化。
為此,研究團隊提出通用計算機控制智能體框架Cradle,使智能體不依賴任何內部API直接控制鍵盤、鼠標和任何軟件交互,無論開源還是閉源,甚至能玩《荒野大鏢客2》這樣的商業3A游戲大作!
↓ 論文標題:Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
- 論文鏈接:??https://arxiv.org/abs/2403.03186??
- 項目主頁:??https://baai-agents.github.io/Cradle/??
- 代碼鏈接:??https://github.com/BAAI-Agents/Cradle??
隨著大模型的發展,越來越多的智能體(AI Agents)研究關注計算機控制,包括瀏覽網頁、操作智能手機、玩游戲等。然而,已有研究依賴內部API獲取輸入,并輸出預先定義好的動作。要構建能完成計算機上一切任務的通用智能體,必須使用最通用和最標準的輸入輸出與計算機進行交互。因此,通用計算機控制使用統一的輸入和輸出,從而讓智能體的通用性變為可能。
但通用性帶來了操作上的難度:
(1)使用計算機屏幕作為輸入對智能體的視頻理解能力提出了更高的要求,例如由于沒有內部API,需要通過視覺信息判斷動作是否執行成功;
(2)使用鍵盤和鼠標操作作為輸出使得智能體需要更高的時空操作精度,比如鍵盤按鍵和鼠標點擊通常額外涉及時間維度。如何解決這些難題是構建通用計算機控制智能體(GCC Agents)的挑戰!
Cradle:操控一切軟件
「計算機指任何以用戶為中心的計算設備,包括PC、智能手機和平板電腦等。盡管Cradle著重于鍵盤和鼠標操作,但可以很容易擴展到控制手柄和觸摸屏等」
通用計算機控制智能體框架Cradle主要由6個模塊組成:信息收集、自我反思、任務推斷、技能管理、行動計劃以及記憶模塊。Cradle高度的通用性來源于其對和計算機交互過程中的原始輸入輸出的合理封裝和抽象。以從屏幕中顯示的視頻作為輸入,提取其中的文本和視覺信息進行決策,并且輸出底層操作系統中控制鍵盤和鼠標的信號去和計算機交互,使得其可以不依賴于任何假設與所有軟件進行交互。
「Cradle主要由信息收集、自我反思、任務推斷、技能管理、行動計劃以及記憶模塊等6個模塊組成,其強大的決策推理來自于“反思過去,總結現在,規劃未來”」
同時Cradle強大的決策推理模塊讓其得以自發和軟件進行交互并且完成任務,這個過程可以被簡單地總結為:反思過去,總結現在,規劃未來。
反思過去:使用執行過往動作過程的視頻作為輸入,分別提取出其中關鍵的文本和視覺信息,通過反思來判斷上一步動作是否執行成功、任務是否完成以及如何改進。
總結現在:反思完之后,總結當前情況,并且以此為依據來決定是否更換任務目標或是修改任務內容。
規劃未來:最后根據當前任務和現狀生成或者更新技能,并且從已學會的技能中檢索與當前任務相關的技能作為備選,然后從中選取合適的技能實例化為動作去執行。
在決策推理的同時,Cradle會周期性地總結和維護儲存在情境記憶中的歷史信息以及儲存在長期記憶中的技能。這一過程的大腦是多模態大模型,如GPT-4V,但是Cradle為其添加了總結、反思以及記憶等功能,形成了完整的面向通用計算機控制的智能體框架,有效解決了通用性所帶來的難題。
Cradle:帶你從頭開始探索《荒野大鏢客2》
?
為了證明框架的通用性和強大的決策能力,研究團隊選擇將Cradle部署到最為困難以及鮮有人探索的的商業3A游戲大作《荒野大鏢客2》。他們認為作為操作最為困難的軟件,假如Cradle能夠在3A游戲上自由探索甚至完成主線劇情,那么說明該框架有巨大潛力泛化到其他游戲和軟件上。
「與Minecraft這樣的開源游戲不同,大多數商業游戲特別是3A游戲并不提供內部API接口,使得類似Voyager這樣的依賴內部API獲取輸入并輸出預定義動作的框架無法遷移到其他游戲中」
以GPT-4V為基礎,Cradle能直接根據游戲內的提示和教程生成對應的可執行代碼作為技能,一步步豐富自己的技能庫, 并在之后的游戲中重復使用這些技能。
在執行了錯誤動作之后,Cradle能夠有效地通過反思來發現并且糾正錯誤。
Cradle不僅能從頭開始跟隨游戲指引生成相應技能,完成長達40分鐘時的主線劇情,還能在開放世界自由探索,騎馬,打獵,戰斗,與NPC對話,使用道具,操作地圖,甚至商店購物,均不在話下。這是首個能長時間游玩商業3A游戲的智能體。
?
結束語
開源的Cradle代碼可以很容易擴展到其他軟件和游戲。研究團隊表示,為了能夠實現真正的通用計算機控制,后續Cradle還將移植到更多軟件和游戲上,也鼓勵相關研究團隊/工業界開展進一步研究與探索。目標是讓智能體可以與無論是開源還是閉源的所有軟件進行交互并持續自我提升,實現通用性,最終成為通用人工智能誕生的搖籃。
本文轉自 PaperWeekly ,作者:智源研究院
