今日arXiv最熱NLP大模型論文:微軟重磅:AgentAI,下一代人工智能的關鍵
引言:AI的全面智能之路
人工智能的發展已從簡單算法進化到復雜的大型基礎模型,尤其在理解開放世界環境中的感官信息方面取得顯著進步。然而,關鍵轉折點在于從過度簡化方法轉向強調整體運作的系統,催生了Agent AI的興起。Agent AI將大型基礎模型整合到代理行動中的具體系統,涉及機器人學、游戲和醫療保健等多領域。本文提出新的代理基礎模型,展現其在多個任務和領域中的非凡能力,挑戰傳統學習和認知觀念。同時,從跨學科角度探討Agent AI潛力,強調AI認知和意識的重要性。這些討論為未來研究奠定基礎,促進社會廣泛參與。
本文深入探討了Agent AI的基礎,強調了智能代理在物理、虛擬或混合現實環境中,根據感官輸入自主執行情境相關行動的能力。這種新范式突出了具身智能的重要性,強調整合復雜動態交互代理方法的必要性。我們堅信,智能源于學習、記憶、行動、感知、規劃和認知間的復雜互動。Agent AI框架(下圖)的構建將促進AI社區對從被動、結構化任務模型向復雜環境中動態交互角色模型的轉變所需見解和知識的積累。這是邁向人工通用智能(AGI)的關鍵一步。
論文標題:
Position Paper: Agent AI Towards a Holistic Intelligence
論文鏈接:
???https://arxiv.org/pdf/2403.00833.pdf??
Agent AI的定義與重要性
1. Agent AI的概念和目標
Agent AI,或稱為代理人工智能,是一種智能體,能夠基于感官輸入自主執行適當且與上下文相關的行動,無論是在物理、虛擬還是混合現實環境中。Agent AI代表了一種新的范式,強調了整合智能體在復雜動態中的互動方式的重要性。這種方法的動力來自于認為智能源自于學習、記憶、行動、感知、規劃和認知之間錯綜復雜的相互作用(下圖)。
2. Agent AI在多模態交互中的應用
Agent AI在多模態交互中的應用廣泛,包括機器人學、游戲和醫療保健系統等。例如,在機器人學中,Agent AI能夠解析人類的指令并執行高級任務;在游戲中,它能夠根據玩家的行動和自然語言指令進行交互;在醫療保健中,Agent AI可以幫助診斷和患者護理。這些應用展示了Agent AI跨領域和任務的顯著能力,挑戰了我們對學習和認知的理解。
Agent基礎模型的構建
1. Agent Transformer的多模態編碼器
Agent Transformer是一種基于變換器的多模態編碼器(下圖),它允許交互式代理基于多模態信息采取行動。這個模型由三個預訓練的子模塊初始化:視覺模塊、代理行動模塊和語言模塊。這種設計使得代理能夠預測完成機器人、游戲和交互式醫療任務所需的行動(或行動標記)。
2. Agent學習策略:強化學習與模仿學習
Agent學習策略包括強化學習(RL)和模仿學習(IL)。RL是一種基于獎勵(或懲罰)來學習狀態和行動之間最佳關系的框架,已被廣泛應用于機器人學等領域。IL則利用示范數據來模仿人類專家的行動,例如在機器人學中,通過行為克隆(BC)方法,機器人被訓練來模仿專家在特定任務中的行動。
3. Agent系統中的優化問題
Agent系統的優化問題可以分為空間和時間兩個方面。空間優化考慮代理在物理空間中執行任務的方式,包括機器人之間的協調、資源分配和保持有序的空間。時間優化則關注代理隨時間執行任務的方式,涉及任務調度、序列化和時間線效率。
4. 自我改進的Transformer模型
當前基于基礎模型的AI代理能夠從多種不同的數據源中學習,這允許更靈活的數據來源用于訓練。自我改進的代理可以通過環境交互持續學習和改進,例如在機器人教學中,Agent AI根據人類提供的多模態指令理解其需要做什么,然后在虛擬世界中生成圖像或場景,并利用用戶反饋進行迭代改進,逐漸適應環境。
Agent AI的分類與研究
Agent AI根據環境和動作內容兩個維度可劃分成四個類別(下圖)。環境分物理世界還是虛擬世界,而動作內容涉及低級別精細動作操控的,我們稱之為“操控動作”(Manipulation action);代理的動作可能主要旨在為機器人或人類的意圖指令進行高級信息傳遞,我們稱之為“意圖動作”(Intentional action)。
1. 物理環境中的操控動作
物理環境中的操控動作主要指在實體環境中進行物理互動的智能體,如機器人技術。這類Agent的研究重點在于如何使機器人能夠理解高層次的指令并將其分解為一系列的物理操控動作。例如,Brohan等人提出的RT-1[1]和RT-2[2]模型,就是通過將一系列圖像和語言輸入轉化為機器人基座和手臂的動作序列,展現了在機器人領域的高泛化性能(下圖是RT-2模型示意圖)。
2. 虛擬環境中的操控動作
虛擬環境中的操控動作在模擬環境中進行學習和任務執行,如視頻游戲中的智能體。這些Agent的學習目標通常是在模擬環境內進行,而不是過渡到物理世界。研究表明,基于大規模文本、圖像和視頻數據訓練的通用視覺語言模型可以作為多模態Agent的基礎,使其能夠在不同環境中行動。
3. 物理環境中的意圖動作
物理環境中的意圖動作是在實體環境中進行非物理互動,如在醫療保健領域的應用。這些Agent能夠理解用戶的意圖,檢索臨床知識,并在人與人的互動中發揮作用。例如,Lee等人研究的醫療聊天機器人[3],展示了利用大型語言模型進行病人診斷的潛力。
4. 虛擬環境中的意圖動作
虛擬環境中的意圖動作在游戲、虛擬現實(VR)和擴展現實(XR)中創建互動內容。這類Agent能夠遵循指令進行導航,并在特定游戲中展現超人的表現。例如,Meta Fundamental AI Research等人的研究表明,Agent AI在特定游戲中的表現超越了人類[4]。
5. 非實體化的多模態Agent分類
非實體化的多模態Agent強調使用多模態信息進行有益的非實體化動作。這類Agent需要具備高度的語言和視覺識別能力,利用大型基礎模型來執行任務規劃和邏輯推理等。
Agent AI的應用領域
1. 機器人技術中的應用
機器人作為典型的Agent,需要與環境有效互動。例如,使用大型基礎模型作為輸入信息的編碼器,指導機器人基于語言指令和視覺線索進行動作。此外,LLMs的高級語言處理能力有助于推進任務規劃技術[5](下圖是GRID模型示意圖,利用指令、場景圖和機器人圖作為機器人任務規劃的輸入)。
2. 游戲領域的創新
游戲提供了一個獨特的沙盒環境,測試大型基礎模型的合作和決策能力。Agent AI在游戲中的應用,如NPC行為、人與NPC的互動以及游戲分析,都在推動游戲體驗的革新。
3. 交互式醫療保健的潛力
Agent AI在醫療保健中的應用,如診斷Agent和知識檢索Agent,能夠幫助患者和醫生,通過理解用戶意圖、檢索臨床知識和把握正在進行的人際互動,提高醫療服務的可及性和質量。
4. 交云互動多模態任務的挑戰
Agent AI在多模態任務中的應用,包括圖像和語言理解與生成、視頻語言理解與生成等,這些任務對于開發能夠與世界以更類似于人類的方式互動的AI代理至關重要。
部署Agent AI的未來方向
1. 探索新范式
Agent AI的未來發展需要探索新的范式,這意味著要超越現有的模型和算法,尋找更加綜合和全面的方法來理解和處理信息。這可能包括將不同模態的數據(如視覺、語言和傳感器輸入)整合到一個統一的框架中,以解決大規模模型中常見的幻覺和偏見問題,從而提高識別和響應能力。
2. 通用端到端系統
未來的Agent AI系統將朝向構建通用的端到端模型發展,這些模型能夠利用大規模數據進行訓練,以適應多樣化的應用場景。這樣的系統能夠靈活地適應不同的任務和環境,從而推動AI解決方案的多功能性和適應性。
3. 模態間的接地方法
通過跨模態信息的整合,我們可以提高數據處理的連貫性和效率。例如,結合視覺和語言信息來理解和描述圖像內容,或者利用歷史行為數據來預測未來的動作。這種方法有助于提高Agent AI系統的理解和響應能力。
4. 直觀的人機界面
開發直觀的人機界面對于促進人與Agent AI之間的有效和有意義的互動至關重要。這包括創建能夠理解自然語言指令的系統,以及設計能夠根據用戶意圖和環境反饋進行適應性響應的界面。
5. 控制LLM/VLM的偏見和幻覺
為了控制大型語言模型(LLM)和視覺語言模型(VLM)的偏見和幻覺,研究人員正在探索新的方法,如使用檢索增強的生成技術或其他外部知識檢索機制。這些方法旨在通過檢索額外的源材料并提供機制來檢查生成響應與源材料之間的矛盾,從而減少幻覺發生率。
6. 模擬與現實之間的橋梁
所謂的"模擬到現實"問題強調了將在模擬環境中訓練的AI代理部署到現實世界中的挑戰。為了解決這些問題,策略包括域隨機化、域適應和改進模擬[6]的方法,以更好地準備模型應對現實世界的不可預測性。下圖就是文獻提出的任務序列模擬器可為機器人操縱的學習和執行提供場景組合。
7. 多Agent互動的復雜性
Agent AI交互目前仍然是一個復雜的過程,需要結合多種技能。當前的人機交互系統在多代理環境中主要是基于規則的。它們確實在一定程度上具有智能行為,并且具有一些網絡知識。在代理系統設計中實現特定行為的多代理互動非常重要。
8. Agent基礎設施與系統的建設
Agent AI的快速發展需要強大的基礎設施來支持它們的訓練、評估和部署。在娛樂、研究和工業領域內,Agent AI社區正在迅速擴大。構建高質量的代理基礎設施對于使用先進硬件、多樣化的數據來源和強大的軟件庫來開發多模態代理副駕駛員具有重要影響。
面向Agent AI的挑戰
1. 未結構化環境的適應性
Agent AI需要能夠適應未結構化的環境,這意味著它們必須能夠處理視覺輸入對于高級意圖和低級動作的影響,即使在給定相同目標指令的情況下也是如此。
2. Agent的共情能力
Agent AI需要具備共情能力,以便在開放式對象集中做出決策,這些對象集要求代理的決策模塊使用難以手動編碼的常識知識。
3. 多Agent互動與協作
Agent AI需要能夠理解和操作超出基于模板的命令,還要能夠理解日常語言中表達的目標、約束和部分計劃的上下文,以實現多代理互動和協作。
4. 大型Agent基礎模型的新能力
隨著Agent AI領域的發展,我們需要開發出能夠在新領域中進行微調/預訓練的模型,以便它們能夠處理在未見過的環境或情景中的泛化性能挑戰。這可能涉及到利用通用基礎模型的知識-記憶來處理新穎場景,特別是在生成人類與代理之間的協作空間方面。
新興能力與混合現實
1. 交互式Agent的跨模態協作
在混合現實的背景下,交互式Agent的跨模態協作是實現有效人機交互的關鍵。這種協作涉及到Agent能夠理解和響應來自不同感官模態的信息,比如視覺、聽覺和觸覺。例如,一個機器人可能需要通過視覺模塊識別物體,通過聽覺模塊理解人類的語音指令,再通過觸覺模塊與物理環境互動。這種跨模態的信息處理能力,不僅要求Agent具備強大的感知能力,還要求其能夠在不同模態之間進行有效的信息整合和決策。
2. 跨現實環境的適應性
Agent在跨現實環境中的適應性是指其能夠在物理世界和虛擬世界之間無縫切換并執行任務的能力。這要求Agent不僅要能夠理解和適應現實世界的物理規律,還要能夠在虛擬環境中根據預設的規則行動。例如,在虛擬現實游戲中,Agent需要根據游戲規則和玩家的互動來做出響應;而在現實世界中,同樣的Agent可能需要根據物理定律和環境變化來操作機械臂完成任務。這種能力的提升,不僅能夠增強Agent的靈活性和適用范圍,還能夠為人類提供更加豐富和沉浸式的交互體驗。
結論與展望
1. Agent AI的未來發展
Agent AI是個有前景的新興領域,能在多領域發揮重要作用。它具有整合性和適應性,能理解和執行自然語言指令,處理視聽輸入,在復雜環境中規劃執行任務。未來,它可能發展出類似“意識”的特性,更好地理解和預測環境變化,與人類用戶深度交互。同時,其在模擬環境中的自我改進能力提升后,能更好地適應現實世界,實現從模擬到現實的無縫過渡。
2. 對人工智能全面理解的貢獻
Agent AI的發展對全面理解人工智能有顯著貢獻。它促進了跨學科研究,有助于探索智能體的認知和意識,為未來研究提供基礎,鼓勵廣泛的社會參與。隨著技術發展,我們有望看到AI代理在復雜環境中扮演更動態、互動的角色,這是邁向AGI的關鍵一步。Agent AI的進步有助于理解學習和認知過程,為實現全面智能體系提供新視角。
本文轉載自夕小瑤科技說,作者:Tscom
原文鏈接:??https://mp.weixin.qq.com/s/IBrK53WeOCcw5LQJQ5M5rA??
