一篇大模型Agent最新綜述

發布于 2024-9-24 14:54

瀏覽

0收藏

嘿，大家好！這里是一個專注于AI智能體的頻道~

最近這2篇綜述有點撞車了，不是純正的Agent綜述，可以了解一下最新的應用測的Agent發展情況！

一篇大模型Agent最新綜述-AI.x社區

現實中的Agent系統會面臨很多的挑戰，常見的有以下幾點：

一個Agent應用框架主要由三個主要的部分：感知、記憶和行動。

一篇大模型Agent最新綜述-AI.x社區

感知部分就像是機器人的眼睛和耳朵。它用來接收來自外部世界的各種信息，比如文字、圖片或者聲音，然后把這些信息轉換成機器人能理解的形式。
行動部分就像是機器人的手腳和大腦。它根據接收到的信息做出決策，就像是我們根據看到和聽到的東西來決定怎么做一樣。同時，機器人還可以根據和外部世界互動得到的反饋來調整和改進自己的決策。
記憶部分則像是機器人的記憶庫，它保存了各種各樣的知識和經驗。這些記憶幫助機器人更好地理解信息和做出決策。記憶部分還可以通過學習來更新，讓機器人在未來能做得更好。
最后，多Agent協作。像是一群機器人一起工作，每個機器人都有自己的任務，但它們通過合作來完成更復雜的工作。

一篇大模型Agent最新綜述-AI.x社區

感知可以處理多種模態的輸入，包括文本、視覺（如圖像）和聽覺（如聲音）輸入。

其中文本輸入可以進一步細分為基于token的輸入、基于tree/graph的輸入和混合輸入。這些不同的輸入形式分別關注代碼的不同特征，例如語義、結構等。

當然無論是文本、視覺還是聽覺輸入，感知模塊最終都要將接收到的信息轉換成適合LLM處理的嵌入格式，為后續的推理和決策制定奠定基礎。

記憶模塊負責存儲能夠幫助LLM進行有效推理決策的信息。它包括語義記憶、情景記憶和程序記憶三種類型。

記憶模塊是Agent的大腦，它保存了所有重要的信息和經驗，幫助Agent更好地理解問題和做出決策。

一篇大模型Agent最新綜述-AI.x社區

重頭戲，Action。行動模塊包括內部行動和外部行動，它們根據LLM的輸入做出推理決策，并根據與外部環境互動獲得的反饋來優化這些決策。

內部行動，涉及Agent的思考過程，包括推理、檢索和學習。

其中推理部分，可以概括為3種形式

一篇大模型Agent最新綜述-AI.x社區

基于思維鏈推理（Chain-of-Thought, CoT）：通過逐步展開思考過程，幫助LLM深入理解問題，分解復雜任務，并生成高質量的答案。
結構化推理（Structured CoT）：將推理過程以類似偽代碼的形式呈現，涉及循環、分支等結構。這種方式特別適合于代碼生成，因為它可以利用源代碼的豐富結構信息。
其他推理形式：包括頭腦風暴和樹形推理等，這些方法通過生成相關關鍵詞或動態探索和更新推理過程來輔助問題解決。

其中檢索部分，為了輔助推理和決策過程，從內部或外部的知識庫中檢索相關信息。這包括查找文檔、代碼片段、API信息等，以支持當前的任務。根據召回內容不同，可以概括為以下幾個類別：

一篇大模型Agent最新綜述-AI.x社區