一種模塊化大模型Agent框架全棧技術綜述 精華
現有基于LLM的智能體雖然在功能上取得了進展,但缺乏模塊化,導致在研究和開發中存在術語和架構上的混淆,在軟件架構上缺乏統一。
“A survey on LLM based autonomous agents”提出的框架,它并沒有明確指出大型語言模型(LLM)、工具、數據源和記憶是否是Agent的一部分。這種對每個模塊功能的模糊區分促進了軟件開發者之間的分裂,并導致不兼容和阻礙了可重用性
LLM-Agent-UMF框架通過明確區分智能體的不同組件,包括LLM、工具和新引入的核心智能體(core-agent),來解決這些問題。核心智能體是智能體的中央協調器,包含規劃、記憶、檔案、行動和安全五個模塊,其中安全模塊在以往的研究中常被忽視。
核心智能體作為基于大型語言模型(LLM)智能體的中心組成部分
核心智能體(core-agent)的內部結構
核心智能體(core-agent)是LLM-Agent-UMF框架的關鍵組成部分。核心智能體被設計為智能體的中央協調器,負責管理和協調智能體的各種功能和組件。內部結構被劃分為五個主要模塊,每個模塊都有其特定的功能和責任:
核心智能體的內部結構
- 規劃模塊(Planning Module):
- 規劃模塊是核心智能體的關鍵組成部分,負責將復雜的任務分解成可執行的步驟,并生成有效的行動計劃:
- 規劃過程(Planning Process):
- 任務分解(Task Decomposition):將復雜任務分解為更簡單的子任務,建立中間目標的層次結構。
- 計劃生成(Plan Generation):為每個子任務制定具體計劃,包括所需工具和參與方。
- 規劃策略(Planning Strategies):
- 單路徑策略(Single-path Strategy):生成單一路徑或程序序列來實現目標,不探索替代方案。
- 多路徑策略(Multi-path Strategy):生成多個計劃,評估并選擇最合適的路徑。
- 規劃技術(Planning Techniques):
- 基于規則的技術(Rule-based Technique):使用符號規劃器和PDDL等正式推理方法。
- 語言模型驅動的技術(Language Model Powered Technique):利用LLM的知識和推理能力來制定規劃策略。
- 反饋源(Feedback Sources):
- 人類反饋(Human Feedback):來自核心智能體與人類的直接互動,用于調整規劃以符合人類價值觀和偏好。
- 工具反饋(Tool Feedback):來自核心智能體使用的內部或外部工具的反饋,用于優化工具選擇和使用策略。
- 同級核心智能體反饋(Sibling Core-Agent Feedback):來自同一系統內不同核心智能體之間的互動和信息交換。
- 記憶模塊(Memory Module):
- 負責存儲和檢索與核心智能體活動相關的信息,以提高決策效率和任務執行能力。
- 記憶結構分為短期記憶和長期記憶,分別對應不同的信息存儲和檢索需求。
- 記憶位置包括嵌入式記憶(核心智能體內)和記憶擴展(核心智能體外,但在智能體系統內)。
- 記憶格式可以是自然語言、嵌入向量、SQL數據庫或結構化列表。
- 檔案模塊(Profile Module):
- 定義LLM的角色和行為,以適應特定的用例和策略。
- 包含多種方法,如手工制作上下文學習方法、LLM生成方法、數據集對齊方法和新引入的微調可插拔模塊方法。
- 行動模塊(Action Module):
- 將智能體的決策轉化為具體行動,通過行動目標、行動產生、行動空間和行動影響四個視角來定義。
- 行動產生方法包括通過記憶回憶、計劃遵循和API調用請求來執行行動。
- 安全模塊(Security Module):
- 監控行動模塊,特別是在生產環境中,以確保LLM的安全和負責任的使用。
- 遵循機密性、完整性、可用性(CIA)原則,確保信息和資源的安全。
- 安全措施包括提示保護、響應保護和數據隱私保護。
核心智能體(core-agent)的分類
對核心智能體進行了分類,區分為主動核心智能體(Active Core-Agents)和被動核心智能體(Passive Core-Agents),以闡明它們在結構和功能上的差異。
主動和被動核心智能體的內部結構
主動核心智能體(Active Core-Agents):
- 包含規劃、記憶、檔案、行動和安全五個模塊。
- 負責協調和管理智能體的其他組件,需要規劃模塊來分解任務、提供上下文、分析信息和做決策。
- 具有狀態性(stateful),能夠維護關于其過去交互和狀態的信息。
- 能夠控制LLM的行為和檔案,具有動態適應不同任務的能力。
- 在多核心智能體系統中,可能需要復雜的同步機制。
多主動核心智能體架構
被動核心智能體(Passive Core-Agents):
- 主要負責執行特定程序,通常不包含規劃和記憶模塊。
- 通常是無狀態的(stateless),只處理當前任務的狀態。
- 行動模塊是其核心,根據外部指令(如LLM或主動核心智能體的指令)執行操作。
- 與人類的互動通常是單向的,只能由被動核心智能體發起。
- 在多核心智能體系統中,集成新的核心智能體相對簡單,因為它們主要執行特定的、有限的任務。
包括被動核心智能體的基于大型語言模型(LLM)的智能體架構
多被動核心智能體架構
混合多核心智能體(Hybrid Multi-Core Agent)架構,
- 這是一種結合了主動核心智能體(Active Core-Agents)和被動核心智能體(Passive Core-Agents)的智能體設計。
- 利用主動核心智能體的管理和協調能力,以及被動核心智能體的執行特定任務的能力。
- 在保持系統靈活性和可擴展性的同時,處理更廣泛的任務。
一主動多被動核心智能體混合架構
多主動多被動核心智能體混合架構
核心智能體(core-agent)的有效性
- 驗證LLM-Agent-UMF框架在設計和改進多核心智能體系統中的應用價值。
- 展示如何通過合并不同智能體的特性來創建具有增強功能的新型智能體。
- 通過將LLM-Agent-UMF框架應用于現有的智能體,如Toolformer、Confucius、ToolLLM和ChatDB,來識別和分類這些智能體中的核心智能體及其模塊。
使用LLM-Agent-UMF對最新智能體進行分類。
Toolformer和Confucius的多被動核心智能體系統:結合了Toolformer和Confucius的被動核心智能體,以處理特定的工具調用和任務執行。
基于大型語言模型的智能體1(LA1):Toolformer和Confucius - 多被動核心智能體架構。
ToolLLM和ChatDB的多主動核心智能體系統:將ToolLLM的API檢索能力和ChatDB的復雜推理能力結合起來,創建了一個能夠執行高級任務規劃和執行的智能體。
基于大型語言模型的智能體2-A(LA2-A):ToolLLM和ChatDB - 多主動核心智能體架構。
https://arxiv.org/pdf/2409.11393
LLM-AGENT-UMF: LLM-BASED AGENT UNIFIED MODELING FRAMEWORK FOR SEAMLESS INTEGRATION OF M
本文轉載自??PaperAgent??
