成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文詳解多模態(tài)智能體(LMAs)最新進展(核心組件/分類/評估/應(yīng)用) 精華

發(fā)布于 2024-5-14 10:09
瀏覽
0收藏

一文詳解多模態(tài)智能體(LMAs)最新進展(核心組件/分類/評估/應(yīng)用)-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2402.15116


github地址:https://github.com/jun0wanan/awesome-large-multimodal-agents

大語言模型(LLMs)在為基于文本的AI智能體提供動力方面取得了卓越的表現(xiàn),賦予它們類似于人類的決策和推理能力。與此同時,出現(xiàn)了一個新興的研究趨勢,專注于將這些由LLMs驅(qū)動的AI智能體擴展到多模態(tài)領(lǐng)域。這種擴展使得AI智能體能夠解釋和響應(yīng)各種多模態(tài)用戶queries,從而處理更加復(fù)雜和微妙的任務(wù)。


本文對LLMs驅(qū)動的多模態(tài)智能體進行了系統(tǒng)性審查,將其稱為大型多模態(tài)智能體(簡稱LMAs)。


首先,介紹了開發(fā)LMAs所涉及的基本組件,并將當前的研究成果分類為四種不同類型。

隨后,審查了整合多個LMAs的協(xié)作框架,增強了集體效能。該領(lǐng)域的一個關(guān)鍵挑戰(zhàn)是現(xiàn)有研究中使用了多種不同的評估方法,這些方法阻礙了對不同LMAs進行有效比較。因此,本文編制了這些評估方法,并建立了一個全面的框架來彌合這些差距。該框架旨在標準化評估,促進更有意義的比較。在審查結(jié)束時,強調(diào)了LMAs的廣泛應(yīng)用,并提出了可能的未來研究方向。


本文討論旨在為這一快速發(fā)展的領(lǐng)域的未來研究提供有價值的見解和指導(dǎo)。

介紹

智能體(agent)是一個能夠感知其環(huán)境并根據(jù)這些感知做出決策以達到特定目標的系統(tǒng)。盡管在狹窄領(lǐng)域內(nèi)表現(xiàn)出色,早期智能體往往缺乏適應(yīng)性和泛化能力,與人類智能存在顯著差異。最近大語言模型(LLMs)的進展開始彌合這一差距,LLMs增強了它們在命令解釋、知識吸收和模擬人類推理和學(xué)習(xí)方面的能力。這些智能體使用LLMs作為它們的主要決策工具,并進一步增強了關(guān)鍵的類人特征,如記憶。這種增強使它們能夠處理各種自然語言處理任務(wù),并使用語言與環(huán)境進行交互。


然而,現(xiàn)實世界的場景往往涉及超越文本的信息,包括多種模態(tài),其中視覺方面的重要性很大。因此,由LLMs驅(qū)動的智能智能體的下一個進化步驟是獲得處理和生成多模態(tài)信息的能力,特別是視覺數(shù)據(jù)。這種能力對于這些智能體進化為更強大的AI實體,模仿人類級別的智能至關(guān)重要。本文具備這種能力的智能體被稱為大型多模態(tài)智能體(LMAs)。通常,它們面臨的挑戰(zhàn)比僅包含語言的智能體更為復(fù)雜。


以網(wǎng)絡(luò)搜索為例,一個LMA首先需要通過搜索欄輸入用戶的要求,以查找相關(guān)信息。隨后,它通過鼠標點擊和滾動導(dǎo)航到網(wǎng)頁,以瀏覽實時網(wǎng)頁內(nèi)容。最后,LMA需要處理多模態(tài)數(shù)據(jù)(如文本、視頻和圖像)并進行多步推理,包括從網(wǎng)絡(luò)文章、視頻報道和社交媒體更新中提取關(guān)鍵信息,并將這些信息整合以響應(yīng)用戶的查詢。我們注意到,現(xiàn)有的LMAs研究是孤立進行的,因此有必要通過總結(jié)和比較現(xiàn)有的框架來進一步推動該領(lǐng)域的發(fā)展。存在一些與LLM驅(qū)動智能體相關(guān)的調(diào)查,但其中很少有關(guān)注多模態(tài)方面的。

一文詳解多模態(tài)智能體(LMAs)最新進展(核心組件/分類/評估/應(yīng)用)-AI.x社區(qū)

本文旨在通過總結(jié)LMAs的主要發(fā)展來填補這一空白。首先,介紹了核心組件,并提出了現(xiàn)有研究的新分類法,進一步討論了現(xiàn)有的協(xié)作框架。關(guān)于評估,概述了評估LMAs性能的現(xiàn)有方法,并進行了全面的總結(jié)。然后,應(yīng)用部分提供了多模態(tài)智能體及其相關(guān)任務(wù)廣泛的現(xiàn)實世界應(yīng)用的詳盡概述。最后,通過討論并提出LMAs可能的未來發(fā)展方向來總結(jié)這項工作,為有用的研究指導(dǎo)提供支持。

LMAs的核心組件

本節(jié)詳細介紹了LMAs的四個核心元素,包括感知、規(guī)劃、行動和記憶。


感知。感知是一種復(fù)雜的認知過程,使人類能夠收集和解釋環(huán)境信息。在LMAs中,感知組件主要集中在處理來自不同環(huán)境的多模態(tài)信息上。如下表1所示,在不同任務(wù)中的LMAs涉及各種模態(tài)。它們需要從這些不同的模態(tài)中提取對任務(wù)完成最有利的關(guān)鍵信息,從而促進任務(wù)的更有效規(guī)劃和執(zhí)行。

一文詳解多模態(tài)智能體(LMAs)最新進展(核心組件/分類/評估/應(yīng)用)-AI.x社區(qū)

早期的處理多模態(tài)信息的研究通常依賴于簡單的相關(guān)模型或工具,將圖像或音頻轉(zhuǎn)換為文本描述。然而,這種轉(zhuǎn)換方法往往會產(chǎn)生大量無關(guān)和冗余信息,特別是對于復(fù)雜的模態(tài)(例如視頻)。除了輸入長度限制,LLMs經(jīng)常面臨有效提取相關(guān)信息進行規(guī)劃的挑戰(zhàn)。為解決這一問題,近期的研究引入了子任務(wù)工具的概念,旨在處理復(fù)雜的數(shù)據(jù)類型。在類似真實世界的環(huán)境(即開放世界游戲)中,[51]提出了一種處理非文本模態(tài)信息的新方法。該方法首先從環(huán)境中提取關(guān)鍵的視覺詞匯,然后使用GPT模型進一步將這些詞匯細化為一系列描述性句子。當LLMs感知環(huán)境中的視覺模態(tài)時,它們使用這些模態(tài)來檢索最相關(guān)的描述性句子,從而有效增強了對環(huán)境的理解。


規(guī)劃。 規(guī)劃者在LMAs中起著核心作用,類似于人類大腦的功能。它們負責對當前任務(wù)進行深入推理,并制定相應(yīng)的計劃。與僅使用語言的智能體相比,LMAs在更復(fù)雜的環(huán)境中運行,制定合理計劃更具挑戰(zhàn)性。從四個角度(模型、格式、檢查和反思、規(guī)劃方法)詳細介紹了規(guī)劃者:

  • 模型:如下表1所示,現(xiàn)有研究采用不同的模型作為規(guī)劃者。其中,最流行的是GPT-3.5或GPT-4。然而,這些模型并不是公開的,因此一些研究已經(jīng)開始轉(zhuǎn)向使用開源模型,例如LLaMA和LLaVA,后者可以直接處理多種模態(tài)的信息,增強了它們制定更優(yōu)化計劃的能力。
  • 格式:它表示規(guī)劃者制定的計劃的格式。如上面表1所示,有兩種格式化方式。第一種是自然語言。例如,在某些研究中,獲得的規(guī)劃內(nèi)容是“我首先使用OpenCV的openpose控制模型分析圖像中男孩的姿態(tài)......”,其中制定的計劃是使用“OpenCV的openpose控制模型”。第二種是以程序形式,如在某些研究中描述的“image_patch = ImagePatch(image)”,其中調(diào)用ImagePatch函數(shù)來執(zhí)行規(guī)劃。還有混合形式。
  • 檢查和反思:在復(fù)雜的多模態(tài)環(huán)境中,LMAs要始終制定有意義的、完成任務(wù)的規(guī)劃是具有挑戰(zhàn)性的。這個組件旨在增強魯棒性和適應(yīng)性。一些研究方法存儲成功的經(jīng)驗在長期記憶中,包括多模態(tài)狀態(tài),以指導(dǎo)規(guī)劃。在規(guī)劃過程中,它們首先檢索相關(guān)經(jīng)驗,幫助規(guī)劃者深思熟慮以減少不確定性。此外,[12]利用人類在執(zhí)行相同任務(wù)時在不同狀態(tài)下制定的計劃。當遇到類似的狀態(tài)時,規(guī)劃者可以參考這些“標準答案”進行思考,從而制定更合理的計劃。此外,[71]采用了更復(fù)雜的規(guī)劃方法,如蒙特卡羅,以擴大規(guī)劃搜索的范圍,找到最佳的規(guī)劃策略。
  • 規(guī)劃方法:現(xiàn)有的規(guī)劃策略可以分為兩種類型:動態(tài)規(guī)劃和靜態(tài)規(guī)劃,如前面表1所示。前者是指根據(jù)初始輸入將目標分解為一系列子計劃,類似于思維鏈(CoT),即使在過程中發(fā)生錯誤,也不會重新制定計劃;后者意味著每個計劃都是基于當前環(huán)境信息或反饋制定的。如果在計劃中檢測到錯誤,它將恢復(fù)到原始狀態(tài)進行重新規(guī)劃。

?

行動。 多模態(tài)智能體系統(tǒng)中的行動組件負責執(zhí)行規(guī)劃者制定的規(guī)劃和決策。它將這些規(guī)劃轉(zhuǎn)化為具體的行動,例如使用工具、身體動作或與界面交互,從而確保智能體能夠準確高效地實現(xiàn)其目標并與環(huán)境進行交互。討論重點在于兩個方面:類型和方法。


在前面表1中,行動被分類為三種類型:工具使用(T)、實體動作(E)和虛擬動作(V),其中工具包括視覺基礎(chǔ)模型(VFMs)、API、Python等(如表2所列);實體動作是由物理實體執(zhí)行的,如機器人或虛擬角色;虛擬動作包括網(wǎng)絡(luò)任務(wù)(例如,點擊鏈接、滾動和鍵盤使用)。

一文詳解多模態(tài)智能體(LMAs)最新進展(核心組件/分類/評估/應(yīng)用)-AI.x社區(qū)

就方法而言,如表1所示,主要有兩種類型。第一種類型涉及使用提示向智能體提供有關(guān)可執(zhí)行行動的信息,例如當前可用的工具及其功能;第二種類型涉及收集關(guān)于行動的數(shù)據(jù),并利用這些信息來自我指導(dǎo)開源大型模型的微調(diào)過程,例如LLaVA。這些數(shù)據(jù)通常由先進的模型生成,例如GPT-4。與僅使用語言的智能體相比,與行動相關(guān)的信息和數(shù)據(jù)的復(fù)雜性需要更復(fù)雜的方法來優(yōu)化學(xué)習(xí)策略。


記憶。 早期研究表明,記憶機制在通用智能體的運作中起著至關(guān)重要的作用。與人類類似,智能體的記憶可以分為長期記憶和短期記憶。在簡單的環(huán)境中,短期記憶足以讓智能體處理手頭的任務(wù)。然而,在更復(fù)雜和更現(xiàn)實的環(huán)境中,長期記憶變得至關(guān)重要。在表1中,可以看到只有少數(shù)LMAs包含長期記憶。與僅使用語言的智能體不同,這些多模態(tài)智能體需要能夠跨越各種模態(tài)存儲信息的長期記憶。在一些研究中,所有模態(tài)都被轉(zhuǎn)換為文本格式進行存儲。然而,在某些研究中,提出了一種多模態(tài)長期記憶系統(tǒng),專門設(shè)計用于存檔以前的成功經(jīng)驗。具體而言,這些記憶被存儲為鍵值對,其中鍵是多模態(tài)狀態(tài),值是成功的計劃。在遇到新的多模態(tài)狀態(tài)時,根據(jù)它們的編碼相似性檢索最類似的例子。

一文詳解多模態(tài)智能體(LMAs)最新進展(核心組件/分類/評估/應(yīng)用)-AI.x社區(qū)

其中,代表通過CLIP模型編碼的鍵的視覺信息,與當前由CLIP編碼的視覺狀態(tài)進行相似性比較。

LMAs的分類法

通過將現(xiàn)有研究分類為四種類型,提出了一種分類法。


類型I:閉源LLMs作為沒有長期記憶的規(guī)劃者。 早期的研究采用提示來利用閉源的大語言模型(如GPT-3.5)作為推理和規(guī)劃的規(guī)劃者,如圖2(a)所示。根據(jù)特定的環(huán)境或任務(wù)要求,這些計劃的執(zhí)行可以通過下游工具包或通過使用鼠標或機器人手臂等物理設(shè)備直接與環(huán)境進行交互。這種類型的LMAs通常在更簡單的環(huán)境中運行,承擔著傳統(tǒng)的任務(wù),如圖像編輯、視覺定位和視覺問答(VQA)。

一文詳解多模態(tài)智能體(LMAs)最新進展(核心組件/分類/評估/應(yīng)用)-AI.x社區(qū)

一文詳解多模態(tài)智能體(LMAs)最新進展(核心組件/分類/評估/應(yīng)用)-AI.x社區(qū)

類型II:經(jīng)過微調(diào)的LLMs作為沒有長期記憶的規(guī)劃者。 這種類型的LMAs涉及收集多模態(tài)指令跟隨數(shù)據(jù)或使用自我指導(dǎo)來微調(diào)開源的大語言模型(如LLaMA)或多模態(tài)模型(如LLaVA),如圖2(b)所示。這種增強不僅使模型能夠作為推理和規(guī)劃的中心“大腦”,還使其能夠執(zhí)行這些計劃。類型II LMAs面臨的環(huán)境和任務(wù)與類型I類似,通常涉及傳統(tǒng)的視覺或多模態(tài)任務(wù)。與相對簡單的動態(tài)特性、封閉環(huán)境和基本任務(wù)的典型場景相比,在像Minecraft這樣的開放世界游戲中,LMAs需要在動態(tài)背景下執(zhí)行精確的規(guī)劃,在高復(fù)雜性的任務(wù)中進行處理,并進行終身學(xué)習(xí)以適應(yīng)新的挑戰(zhàn)。因此,在類型I和類型II的基礎(chǔ)上,類型III和類型IV的LMAs集成了記憶組件,展示了向人工智能領(lǐng)域中的通用智能體發(fā)展的巨大潛力。


類型III:具有間接長期記憶的規(guī)劃者。 對于類型III的LMAs,如圖2(c)所示,LLMs充當中央規(guī)劃者,并配備有長期記憶。這些規(guī)劃者通過調(diào)用相關(guān)工具訪問和檢索長期記憶,利用這些記憶來增強推理和規(guī)劃。例如,在[71]中開發(fā)的多模態(tài)智能體框架專為視頻處理等動態(tài)任務(wù)量身定制。該框架包括一個規(guī)劃者、一個工具包和一個與任務(wù)相關(guān)的記憶庫,目錄了空間和時間屬性。規(guī)劃者使用專門的子任務(wù)工具查詢記憶庫,以獲取與視頻內(nèi)容相關(guān)的時空屬性,從而推斷出與任務(wù)相關(guān)的時間和空間數(shù)據(jù)。存儲在工具包中的每個工具都專為特定類型的時空推理而設(shè)計,并在框架內(nèi)作為執(zhí)行者。


類型IV:具有本地長期記憶的規(guī)劃者。 與類型III不同,類型IV的LMAs具有LLMs直接與長期記憶進行交互,繞過了使用工具訪問長期記憶的需要,如圖2(d)所示。例如,在[51]中提出的多模態(tài)智能體展示了在Minecraft的開放世界環(huán)境中完成200多個不同任務(wù)的熟練技能。在他們的多模態(tài)智能體設(shè)計中,交互式規(guī)劃者將多模態(tài)基礎(chǔ)模型與LLM相結(jié)合,首先將環(huán)境多模態(tài)輸入轉(zhuǎn)換為文本。規(guī)劃者進一步采用自檢機制來預(yù)測和評估執(zhí)行中的每個步驟,主動發(fā)現(xiàn)潛在缺陷,并結(jié)合環(huán)境反饋和自我解釋,迅速糾正和完善計劃,而無需額外信息。此外,該多模態(tài)智能體框架包括一個新穎的多模態(tài)記憶。成功的任務(wù)計劃及其初始多模態(tài)狀態(tài)被存儲,規(guī)劃者從該數(shù)據(jù)庫中檢索類似的狀態(tài)用于新任務(wù),利用積累的經(jīng)驗以實現(xiàn)更快、更有效的任務(wù)完成。

多智能體協(xié)作

本節(jié)進一步介紹了超出孤立智能體討論范圍的LMAs的協(xié)作框架。


如下圖3(a)(b)所示,這些框架采用多個LMAs協(xié)同工作。這兩種框架之間的關(guān)鍵區(qū)別在于是否存在記憶組件,但它們的基本原理是一致的:多個LMAs擁有不同的角色和責任,使它們能夠協(xié)調(diào)行動,共同實現(xiàn)共同目標。這種結(jié)構(gòu)減輕了單個智能體的負擔,從而增強了任務(wù)性能。

一文詳解多模態(tài)智能體(LMAs)最新進展(核心組件/分類/評估/應(yīng)用)-AI.x社區(qū)

例如,在[37]的多模態(tài)智能體框架中,引入了一個感知者智能體來感知多模態(tài)環(huán)境,由大型多模態(tài)模型組成。一個被指定為Patroller的智能體負責與感知者智能體進行多次交互,對感知到的環(huán)境數(shù)據(jù)進行實時檢查和反饋,以確保當前計劃和行動的準確性。當檢測到執(zhí)行失敗或需要重新評估時,Patroller向規(guī)劃者提供相關(guān)信息,促使重新組織或更新子目標下的動作序列。


MemoDroid框架由幾個關(guān)鍵智能體組成,它們共同工作以自動化移動任務(wù)。探索智能體負責對目標應(yīng)用程序界面進行離線分析,根據(jù)UI元素生成潛在子任務(wù)列表,然后將其存儲在應(yīng)用程序內(nèi)存中。在在線執(zhí)行階段,選擇智能體根據(jù)用戶命令和當前屏幕狀態(tài)從探索的集合中確定要執(zhí)行的特定子任務(wù)。推斷智能體進一步通過提示LLM識別并完成所選子任務(wù)所需的基礎(chǔ)動作序列。同時,當遇到與先前學(xué)習(xí)的任務(wù)相似的任務(wù)時,Recall智能體可以直接從內(nèi)存中調(diào)用和執(zhí)行相應(yīng)的子任務(wù)和動作序列。

評估

研究的主要焦點是增強當前LMAs的能力。然而,對于這些智能體的評估和評價方法,卻付出了有限的努力。大多數(shù)研究仍然依賴于傳統(tǒng)的性能評估指標,這清楚地說明了評估LMAs的挑戰(zhàn)。這也強調(diào)了在這一領(lǐng)域開發(fā)實用的評估標準和建立基準數(shù)據(jù)集的必要性。本節(jié)總結(jié)了對LMAs的現(xiàn)有評估,并提供了對未來發(fā)展的展望。

主觀評價

主觀評價主要是指使用人類來評估這些LMAs的能力。最終目標是創(chuàng)建一個能夠像人類一樣理解世界并自主執(zhí)行各種任務(wù)的LMA。因此,采用人類用戶對LMAs能力的主觀評估至關(guān)重要。主要的評估指標包括多功能性、用戶友好性、可擴展性以及價值和安全性。


多功能性。 多功能性表示LMA靈活運用各種工具、執(zhí)行物理和虛擬行動以及管理各種任務(wù)的能力。[30]提出了比較現(xiàn)有LMAs使用的工具的規(guī)模和類型,以及評估它們功能多樣性的方法。


用戶友好性。 用戶友好性涉及用戶對LMAs完成任務(wù)結(jié)果的滿意度,包括效率、準確性和結(jié)果的豐富程度。這種評估相對較主觀。在[64]中,人類對LMAs的評估對于精確評估其在解釋和執(zhí)行用戶指令方面的有效性至關(guān)重要。


可擴展性。 可擴展性基本評估LMAs吸收新能力并應(yīng)對新興挑戰(zhàn)的能力。鑒于人類需求的動態(tài)性,嚴格評估LMAs的適應(yīng)性和終身學(xué)習(xí)潛力至關(guān)重要。例如,[23]中的評估側(cè)重于智能體使用以前未見過的工具完成任務(wù)的熟練程度。


價值和安全性。 除了之前提到的指標外,“價值和安全性”指標在確定智能體對人類用戶的實際意義和安全性方面起著至關(guān)重要的作用。雖然許多當前的評估忽視了這一指標,但考慮到LMAs的“價值和安全性”是至關(guān)重要的。與語言智能體相比,LMAs可以處理更廣泛的任務(wù)類別,因此更重要的是讓它們遵循與人類社會價值觀一致的道德和倫理原則。

客觀評價

客觀評價與主觀評估不同,依賴于定量指標全面、系統(tǒng)地、標準化地評估LMAs的能力。目前,這是多模態(tài)智能體研究中最廣泛采用的評估方法。


指標。 指標在客觀評估中發(fā)揮著至關(guān)重要的作用。在當前的多模態(tài)智能體研究中,采用了特定的與任務(wù)相關(guān)的指標,例如智能體生成答案的準確性,如視覺問答(VQA)中的準確性。然而,LLMs出現(xiàn)之前建立的傳統(tǒng)任務(wù)指標在評估llm驅(qū)動的LMAs時并不足夠有效。因此,越來越多的研究工作致力于確定更適合的評估指標。例如,在VisualWebArena中,設(shè)計了一種專門的評估指標,用于評估LMAs處理視覺引導(dǎo)任務(wù)的性能。這包括測量智能體對網(wǎng)頁內(nèi)容的視覺理解的準確性,例如識別和利用由標記集定義的可交互元素進行操作,并根據(jù)手動設(shè)計的獎勵函數(shù)定義的任務(wù)目標實現(xiàn)狀態(tài)轉(zhuǎn)換的能力。此外,還包括對特定視覺場景問題的響應(yīng)的準確性以及根據(jù)視覺信息執(zhí)行的操作的一致性。


基準測試。 基準測試代表著一個測試環(huán)境,其中包含一系列評估標準、數(shù)據(jù)集和任務(wù)。它被用于評估和比較不同算法或系統(tǒng)的性能。與傳統(tǒng)任務(wù)的基準測試相比,SmartPlay 利用精心設(shè)計的一套游戲全面衡量LMAs的各種能力,為每種能力建立了詳細的評估指標和挑戰(zhàn)級別。與使用游戲進行評估的方法相比,GAIA 開發(fā)了一個包含466個問題及其答案的測試集。這些問題要求AI系統(tǒng)具備一系列基本能力,例如推理、處理多模態(tài)信息、網(wǎng)絡(luò)導(dǎo)航和熟練使用工具。與當前創(chuàng)建越來越困難的任務(wù)以測試人類能力的趨勢不同,GAIA側(cè)重于對現(xiàn)有高級AI系統(tǒng)提出概念上簡單但具有挑戰(zhàn)性的問題。這些問題涉及需要精確執(zhí)行復(fù)雜操作序列的真實場景,其輸出易于驗證。類似地,VisualWebArena是一個基準測試套件,旨在評估和推進LMAs在處理視覺和文本理解任務(wù)上的能力,適用于真實網(wǎng)頁。還有其他基準測試有效地測試了智能體的能力。

應(yīng)用

LMAs擅長處理多種數(shù)據(jù)模態(tài),在各種情景下的決策和響應(yīng)生成方面勝過僅限于語言的智能體。它們的適應(yīng)性使它們在真實世界的多感官環(huán)境中異常有用,如圖4所示。

一文詳解多模態(tài)智能體(LMAs)最新進展(核心組件/分類/評估/應(yīng)用)-AI.x社區(qū)

GUI自動化。 在這個應(yīng)用中,LMAs的目標是理解和模擬用戶界面內(nèi)的人類操作,實現(xiàn)重復(fù)任務(wù)的執(zhí)行、跨多個應(yīng)用程序的導(dǎo)航以及簡化復(fù)雜的工作流程。這種自動化有望節(jié)省用戶的時間和精力,讓他們可以專注于工作的更重要和更有創(chuàng)造性的方面。例如,GPT-4V-Act是一種先進的人工智能,將GPT-4V的能力與網(wǎng)絡(luò)瀏覽相結(jié)合,以改進人機交互。它的主要目標是使用戶界面更易于訪問,簡化工作流程自動化,并增強自動化的UI測試。這種人工智能對于殘疾人或技術(shù)能力有限的人來說特別有益,幫助他們更輕松地瀏覽復(fù)雜的界面。


機器人技術(shù)與實體人工智能。 這個應(yīng)用專注于將機器人的感知、推理和行動能力與其環(huán)境中的物理交互相結(jié)合。通過使用多模態(tài)智能體,機器人可以利用多種感官通道,如視覺、聽覺和觸覺,獲取全面的環(huán)境數(shù)據(jù)。例如,MP5系統(tǒng)是一種先進的多模態(tài)實體系統(tǒng),用于Minecraft,利用主動感知來智能地分解并執(zhí)行廣泛的、無限期的任務(wù),使用大語言模型。

游戲開發(fā)。 游戲人工智能致力于設(shè)計和實現(xiàn)這些智能體,以展示智能和真實感,從而提供引人入勝和具有挑戰(zhàn)性的玩家體驗。將智能體技術(shù)成功地整合到游戲中,已經(jīng)導(dǎo)致了更復(fù)雜和交互式的虛擬環(huán)境的創(chuàng)建。


自動駕駛。 傳統(tǒng)的自動駕駛方法在有效感知和解釋復(fù)雜場景方面面臨困難。最近基于多模態(tài)智能體技術(shù)的進展,特別是由LLMs驅(qū)動,標志著在克服這些挑戰(zhàn)和彌合感知差距方面取得了重大進展。GPT-Driver,這是一種先進的方法,采用OpenAI GPT-3.5模型作為自動駕駛車輛的可靠運動規(guī)劃器,特別注重生成安全舒適的駕駛軌跡。利用LLMs固有的推理能力,他們的方法為新穎駕駛場景中有限的泛化問題提供了有希望的解決方案。


視頻理解。 視頻理解智能體是專門用于分析和理解視頻內(nèi)容的人工智能系統(tǒng)。它利用深度學(xué)習(xí)技術(shù)從視頻中提取關(guān)鍵信息,識別對象、動作和場景,以增強對視頻內(nèi)容的理解。


視覺生成和編輯。 這種類型的應(yīng)用旨在創(chuàng)建和編輯視覺內(nèi)容。利用先進的技術(shù),這個工具輕松地創(chuàng)建和修改圖像,為用戶提供了創(chuàng)意項目的靈活選擇。例如,LLaVA-Interactive是一個開源的多模態(tài)交互系統(tǒng),將預(yù)訓(xùn)練的AI模型的能力融合在一起,以便于與視覺線索進行多輪對話并生成編輯后的圖像,從而實現(xiàn)了一種經(jīng)濟高效、靈活直觀的AI輔助視覺內(nèi)容創(chuàng)建體驗。


復(fù)雜的視覺推理任務(wù)。 這個領(lǐng)域是多模態(tài)智能體研究的重點,主要強調(diào)多模態(tài)內(nèi)容的分析。這種流行歸因于LLMs在理解和推理基于知識的查詢方面的優(yōu)越認知能力,超越了以前模型的能力。在這些應(yīng)用中,主要關(guān)注的是問答任務(wù)。這包括利用視覺模態(tài)(圖像或視頻)和文本模態(tài)(帶有問題或附帶文檔的問題)進行推理響應(yīng)。


音頻編輯與生成。 這個應(yīng)用中的LMAs集成了音頻領(lǐng)域的基礎(chǔ)專家模型,使音樂的編輯和創(chuàng)作變得高效。

結(jié)論

本調(diào)查對由LLMs驅(qū)動的多模態(tài)智能體(LMAs)的最新研究進行了徹底的概述。首先介紹了LMAs的核心組件(即感知、規(guī)劃、行動和記憶),并將現(xiàn)有研究分類為四類。隨后,整理了評估LMAs的現(xiàn)有方法,并設(shè)計了一個全面的評估框架。最后,重點介紹了LMAs領(lǐng)域內(nèi)一系列當前和重要的應(yīng)用場景。盡管取得了顯著進展,但這個領(lǐng)域仍面臨許多未解決的挑戰(zhàn),有很大的改進空間。我們最后根據(jù)審查的進展,強調(diào)了幾個有前途的方向:

  • 在框架方面:LMAs未來的框架可能會從兩個不同的角度發(fā)展。從單一智能體的角度來看,發(fā)展可能朝著創(chuàng)建一個更統(tǒng)一的系統(tǒng)的方向發(fā)展。這涉及到規(guī)劃者直接與多模態(tài)環(huán)境互動,利用全面的工具集,并直接操作記憶;從多個智能體的角度來看,推進多個多模態(tài)智能體之間的有效協(xié)調(diào),執(zhí)行集體任務(wù),是一個關(guān)鍵的研究方向。這包括基本的方面,如協(xié)作機制、通信協(xié)議和戰(zhàn)略任務(wù)分配。
  • 在評估方面:對于這個領(lǐng)域,需要系統(tǒng)和標準的評估框架。理想的評估框架應(yīng)該包含一系列評估任務(wù),從簡單到復(fù)雜不等,每個任務(wù)都具有對人類的重要相關(guān)性和效用。它應(yīng)該包含清晰而明智的評估指標,經(jīng)過精心設(shè)計,以全面而非重復(fù)的方式評估LMA的各種能力。此外,用于評估的數(shù)據(jù)集應(yīng)該經(jīng)過精心策劃,以反映更貼近實際情況的場景。
  • 在應(yīng)用方面:LMAs在現(xiàn)實世界中的潛在應(yīng)用是巨大的,為傳統(tǒng)模型之前具有挑戰(zhàn)性的問題提供了解決方案,例如網(wǎng)絡(luò)瀏覽。此外,LMAs與人機交互領(lǐng)域的交叉也代表了未來應(yīng)用的重要方向之一。它們處理和理解來自各種模態(tài)的信息的能力使它們能夠執(zhí)行更復(fù)雜、更細微的任務(wù),從而增強了它們在實際場景中的實用性,并改善了人與機器之間的交互。


本文轉(zhuǎn)自 AI生成未來 ,作者:Junlin Xie等


原文鏈接:??https://mp.weixin.qq.com/s/uvHvVcAXRb_d55_T687ByA??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 色偷偷人人澡人人爽人人模 | 99免费精品 | 黄色大片免费观看 | 99热国产免费 | 日日夜夜免费精品视频 | 成人免费网站www网站高清 | 久久精品国产99国产精品 | 中文字幕在线观看第一页 | 粉嫩高清一区二区三区 | 精品伦精品一区二区三区视频 | 欧美精品综合在线 | 欧美2区| 色中文在线 | 亚洲av毛片成人精品 | 欧美成年视频 | 精品一区电影 | 成人欧美一区二区 | 午夜精品久久久 | 一级片在线观看视频 | 五月天天丁香婷婷在线中 | 国产精品免费视频一区 | 日韩精品免费一区二区在线观看 | 亚洲精品一级 | 亚洲视频欧美视频 | 请别相信他免费喜剧电影在线观看 | 99精品免费久久久久久久久日本 | 欧美日韩国产一区二区三区 | 国产精品视频偷伦精品视频 | 日韩中文字幕第一页 | 男人av的天堂 | 免费看一级毛片 | 国产精品一区二区精品 | 天堂一区二区三区 | 中文字幕在线看第二 | 久草久草久草 | 国产精品日日做人人爱 | 久久精品综合 | 欧美网址在线观看 | 国产传媒毛片精品视频第一次 | 国产黄色麻豆视频 | 超碰成人免费观看 |