成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI自主智能體大盤點,構建、應用、評估全覆蓋,人大高瓴文繼榮等32頁綜述

人工智能 新聞
本文全面介紹了基于大語言模型(LLM)的智能體的構建、潛在應用和評估,為全面了解該領域的發展以及啟發未來的研究具有重要意義。

在當今的 AI 時代,自主智能體被認為是通向通用人工智能(AGI)的一條有前途的道路。所謂自主智能體,即能夠通過自主規劃和指令來完成任務。在早期的開發范式中,決定智能體行動的策略功能是以啟發式為主的,并在環境交互中逐步得到完善。

不過,在不受約束的開放域環境中,自主智能體的行動往往很難企及人類水平的熟練程度。

隨著近年來大語言模型(LLM)取得了巨大成功,并展現出了實現類人智能的潛力。因而得益于強大的能力,LLM 越來越多地被用作創建自主智能體的核心協調者,并先后出現花樣繁多的 AI 智能體。這些智能體通過模仿類人的決策過程,為更復雜和適應性更強的 AI 系統提供了一條可行性路徑。

基于 LLM 的自主智能體一覽,包括工具智能體、模擬智能體、通用智能體和領域智能體。

在現階段,對已經出現的基于 LLM 的自主智能體進行整體分析非常重要,并對全面了解該領域的發展現狀以及啟發未來的研究具有重要意義。

本文中,來自中國人民大學高瓴人工智能學院的研究者對基于 LLM 的自主智能體展開了全面調研,并著眼于它們的構建、應用和評估三個方面。

論文地址:https://arxiv.org/pdf/2308.11432.pdf

對于智能體的構建,他們提出了一個由四部分組成的統一框架,分別是表示智能體屬性的配置模塊、存儲歷史信息的記憶模塊、制定未來行動策略的規劃模塊和執行規劃決定的行動模塊。在介紹了典型的智能體模塊之后,研究者還總結了常用的微調策略,通過這些策略來增強智能體對不同應用場景的適應性。

接下來研究者概述了自主智能體的潛在應用,探討它們如何對社會科學、自然科學和工程學領域產生增益。最后討論了自主智能體的評估方法,包括主觀和客觀評估策略。下圖為文章整體架構。

圖片圖源:https://github.com/Paitesanshi/LLM-Agent-Survey

基于 LLM 的自主智能體構建

為了讓基于 LLM 的自主智能體更加高效,有兩個方面需要考慮:首先是應該設計怎樣的架構使得智能體能更好的利用 LLM;其次是如何有效地學習參數。

智能體架構設計:本文提出了一個統一的框架來總結之前研究中提出的架構,整體結構如圖 2 所示,它由分析(profiling)模塊、記憶模塊、規劃模塊以及動作模塊組成。 

總結而言,分析模塊旨在識別智能體是什么角色;記憶和規劃模塊可將智能體置于動態環境中,使智能體能夠回憶過去的行為并計劃未來的行動;動作模塊負責將智能體的決策轉化為具體的輸出。在這些模塊中,分析模塊影響記憶和規劃模塊,這三個模塊共同影響動作模塊。 

分析模塊

自主智能體通過特定角色來執行任務,例如程序員、教師和領域專家。分析模塊旨在表明智能體的角色是什么,這些信息通常被寫入輸入提示中以影響 LLM 行為。在現有的工作中,有三種常用的策略來生成智能體配置文件:手工制作方法;LLM-generation 方法;數據集對齊方法。

記憶模塊

記憶模塊在 AI 智能體的構建中起著非常重要的作用。它記憶從環境中感知到的信息,并利用記錄的記憶來促進智能體未來的動作。記憶模塊可以幫助智能體積累經驗、實現自我進化,并以更加一致、合理、有效的方式完成任務。

規劃模塊

當人類面臨復雜任務時,他們首先將其分解為簡單的子任務,然后逐一解決每個子任務。規劃模塊賦予基于 LLM 的智能體解決復雜任務時需要的思考和規劃能力,使智能體更加全面、強大、可靠。本文介紹了兩種規劃模塊:沒有反饋的規劃以及有反饋的規劃。

動作模塊

動作模塊旨在將智能體的決策轉化為具體的結果輸出。它直接與環境交互,決定智能體完成任務的有效性。本節從動作目標、策略、動作空間和動作影響來介紹。

除了上述 4 個部分外,本章還介紹了智能體的學習策略,包括從示例中學習、從環境反饋中學習、從交互的人類反饋中學習。

表 1 列出了之前的工作和本文的分類法之間的對應關系:

圖片

基于 LLM 的自主智能體應用

本章探討了基于 LLM 的自主智能體在三個不同領域的變革性影響:社會科學、自然科學和工程。

例如基于 LLM 的智能體可用于設計和優化復雜結構,如建筑物、橋梁、水壩、道路等。此前,有研究者提出了一個交互式框架,人類建筑師和 AI 智能體協同辦公在 3D 模擬中構建結構環境。交互式智能體可以理解自然語言指令、放置模塊、尋求建議并結合人類反饋,顯示出工程設計中人機協作的潛力。

又比如在計算機科學和軟件工程領域,基于 LLM 的智能體提供了自動化編碼、測試、調試和文檔生成的潛力。有研究者提出了 ChatDev ,這是一個端到端的框架,其中多個智能體通過自然語言對話進行溝通和協作,以完成軟件開發生命周期;ToolBench 可以用于代碼自動補全和代碼推薦等任務;MetaGPT 可以扮演產品經理、架構師、項目經理和工程師等角色,內部監督代碼生成并提高最終輸出代碼的質量等等。

下表為基于 LLM 的自主智能體的代表性應用:

圖片

基于 LLM 的自主智能體評估

本文介紹了兩種常用的評估策略:主觀評估和客觀評估。

主觀評估是指人類通過交互、評分等多種手段對基于 LLM 的智能體的能力進行測試。在這種情況下,參與評估的人員往往是通過眾包平臺招募的;而一些研究者認為眾包人員由于個體能力差異而不穩定,因而也會使用專家注釋來進行評估。 

除此以外,在當前的一些研究中,我們可以使用 LLM 智能體作為主觀評估者。例如在 ChemCrow 研究中,EvaluatorGPT 通過指定等級來評估實驗結果,該等級既考慮任務的成功完成,又考慮基本思維過程的準確性。又比如 ChatEval 組建了一個基于 LLM 的多智能體裁判小組,通過辯論來評估模型的生成結果。

與主觀評估相比,客觀評估具有多種優勢,客觀評估是指使用定量指標來評估基于 LLM 自主智能體的能力。本節從指標、策略和基準的角度回顧和綜合客觀評估方法。

在使用評估過程中,我們可以將這兩種方法結合使用。

表 3 總結了以前的工作與這些評估策略之間的對應關系:

圖片

了解更多內容,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-22 10:13:53

模塊工具JavaScrip

2024-06-04 22:04:39

2023-03-15 23:59:13

前端構建工具

2025-01-27 09:51:24

AI模型開源

2025-04-21 09:00:00

智能體AI模型

2023-09-18 08:50:51

智能模型

2021-11-18 10:17:25

AI數據人工智能

2025-05-30 06:48:53

2023-10-18 13:32:00

AI數據

2022-04-19 14:51:44

人工智能開源數據

2024-04-02 07:32:32

數據庫遷移工具異構數據庫

2024-01-02 00:16:59

生成式AI人工智能

2012-03-28 22:21:11

2010-09-06 09:25:42

Web應用程序

2012-03-05 10:25:50

云計算中國云孫丕恕

2025-05-13 15:13:28

AI模型訓練

2025-02-18 13:00:00

2025-04-30 08:57:55

2019-10-14 15:19:56

AI 數據人工智能

2023-02-07 13:24:42

應用學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品视频在线观看免费 | 中文字幕成人av | 中国一级特黄视频 | 国产三级在线观看播放 | 精品日本久久久久久久久久 | 一区二区在线观看免费视频 | 草草视频在线观看 | www.天天操 | 91视频导航 | 亚洲一区精品在线 | 一区视频在线播放 | 大学生a级毛片免费视频 | 国产精品成人一区 | 日本二区 | 欧美性区| 中文在线视频观看 | 国产精品久久久久久久久图文区 | 日韩精品久久久久 | 91免费视频观看 | 国产视频一区二区 | 亚洲三级在线观看 | 韩日在线 | 精品九九久久 | 日韩av一二三区 | 激情婷婷 | 日韩1区2区| 天天色天天射天天干 | 国产精品久久久久久 | 成人免费看片网 | 欧美三级三级三级爽爽爽 | 精品久久久久久久久久久久久久久久久 | 精品国产乱码久久久久久88av | 精品不卡| 国产精品无码专区在线观看 | 成人国产在线视频 | 欧美日韩精品一区二区天天拍 | 国产乱码精品1区2区3区 | 午夜天堂| 日本人做爰大片免费观看一老师 | 国户精品久久久久久久久久久不卡 | 99re视频在线免费观看 |