#AIGC創新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？原創

九章云極

發布于 2024-9-27 17:24

瀏覽

0收藏

【本文正在參與 AI.x社區AIGC創新先鋒者征文大賽】(http://www.ekrvqnd.cn/aigc/2223.html)

在AI技術日新月異的當下，智能體（Agent）技術正迅速崛起，成為AI領域的一大熱點。Agent技術在各行業應用場景中表現出巨大潛力，然而伴隨著機遇的同時，Agent技術的發展以及應用落地也面臨著諸多挑戰。

在近期落幕的WOT全球技術創新大會上，九章云極DataCanvas的資深算法工程師薛磊，聚焦于Agent的構建與落地，從理論框架到實踐案例，分享了他在Agent領域的洞見和經驗，探討了Agent技術在當今人工智能生態中的定位與價值。

1.概述：AI Agent是如何興起的

首先就AI Agent是什么，薛磊做了簡要概述。

就定義來說，Agent一詞起源于拉丁語中的"Agere"，意思是“to do”。在現代人工智能領域，Agent被定義為能夠自主理解、規劃決策、執行復雜任務的智能體。就組成來說，Agent通常由大型語言模型（LLM）加上規劃、記憶、工具調用和執行能力組成。某種程度上，兩者可以類比為人類的大腦和雙手。

在大模型時代，Agent技術得到了顯著的發展和應用。一方面，大模型相當于Agent的“大腦”，提供了處理復雜任務所需的智能和知識。另一方面，大模型的興起降低了使用AI Agent的門檻，使得更多的人和應用能夠利用這些技術。

那么，Agent是如何工作的呢？簡單來說，Agent的整體框架由三個關鍵部分組成：大腦、感知、行動。

大腦：由大型語言模型組成，負責存儲知識、記憶，并進行信息處理和決策。
感知：感知模塊擴展了Agent的感知空間，使其能夠處理文本、聽覺和視覺等多種模態的輸入。
行動：行動模塊接收大腦模塊發送的行動序列，并執行與環境交互的行動。

這些組成部分使Agent能夠像人類一樣進行思考、感知和行動。在薛磊看來，雖然通用大模型在許多領域都表現出色，但Agent可以針對特定的垂直領域進行優化和擴展。作為一個模塊，Agent可以作為輔助工具，被集成到更大的系統中，輔助不同行業、職業以及個人，其設計和功能使其能夠在不同的應用場景中發揮關鍵作用，同時保持靈活性和可擴展性。

2.組成：量身定制一個框架

隨后，薛磊重點介紹了Agent框架。

在計算領域，Agent框架指導智能體如何感知環境、如何做出決策、如何采取行動。換句話說，它提供了一種組織智能體行為、決策及交互的方法，使它們能夠適應環境變化并高效達成目標。

當前有許多主流的Agent流程框架中，而ReAct是應用比較廣的。ReAct為什么受歡迎呢？

究其原因：一是提升交互質量。ReAct允許模型在執行任務的過程中生成推理軌跡，這意味著模型可以邊思考邊行動，同時記錄下自己的思考過程；二是適應復雜任務。ReAct框架下的模型可以在執行過程中動態調整策略，這使得它們能夠處理那些多步驟、具有不確定性和動態變化的任務；三是通過將推理和行動相結合，ReAct增強了模型的決策能力。模型不僅依賴于靜態的預先訓練知識，還可以根據新信息進行實時學習和調整，這在處理復雜多變的場景時尤為重要。

薛磊提到，九章云極自研Agent框架有五個核心部分，分別是Session、Agent、Action、Tool、Planner。

#AIGC創新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？-AI.x社區
Session：代表用戶與Agent的交互會話，作為思維的主線，記錄用戶與Agent交互的整個生命周期。

Agent：作為交互的核心，負責理解和響應用戶的需求，觸發相應的計劃和行動。
Planner：負責制定計劃和策略，根據用戶的需求和上下文信息，規劃Agent的行動步驟。
Action：涉及到Agent執行具體動作的能力，包括調用內部或外部的工具來完成任務。
Tool：工具或資源，供Agent在執行任務時調用，如搜索引擎、數據庫或其他應用程序。
關于自研框架的交互過程，薛磊做了進一步說明。

當用戶通過對話或其他方式向Agent提出需求或問題時，Agent通過Prompt工程中的意圖識別技術，理解用戶的意圖。Planner再根據用戶的意圖和上下文信息，制定行動計劃。之后Agent根據計劃，通過Action調用相應的Tool執行任務。執行完畢后，Agent將結果反饋給用戶，如果需要，還可能進行多輪對話以優化結果。

而在整個交互過程中，Alaya-Session會充當這個過程的記錄者。它記錄用戶與Agent的每一次會話，包括用戶的請求、Agent的響應以及交互過程中的所有細節。一來它記錄用戶的交互歷史，這種記憶功能使得Agent能夠在后續的交互中利用歷史數據，提供更加個性化和連貫的服務；二來通過結合歷史上下文和當前會話的信息，Alaya-Session可以幫助Agent更準確地把握用戶意圖。

#AIGC創新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？-AI.x社區

3.構建：打造出色的Agent系統

不過，薛磊也提到，在開發Agent框架的過程中，團隊使用了多種開源工具來輔助構建和測試他們的系統。其中ChatGPT4作為優秀的工具，在過程中發揮了重要作用，但隨著開發和測試的深入，使用ChatGPT4等工具的費用、調用次數或其他限制條件開始成為問題。

當無法繼續依賴這些工具時，記錄會話過程中的所有信息就變得尤為重要。記錄的數據將用于對模型進行后期微調，以改進其性能和適應性。這可能涉及到調整模型以更好地適應特定的任務或優化其在特定場景下的表現。同時，通過分析記錄的數據，開發者可以對框架進行初步選擇或調整，以確定哪些組件或策略最有效，哪些需要改進。

薛磊表示，在構建和優化Agent框架的過程中，團隊從以下幾個關鍵方面進行了處理，以確保系統的高效性和智能性。

其一，基座大模型。 基座大模型相當于Agent的“大腦”，決定著任務的起因、結果和成功率。它在處理垂直領域的專有名詞時尤為重要。例如，在電信行業中，套餐的名稱和價格是特定領域的術語，這些在通用大模型中可能不被理解。因此，需要對基座大模型進行特定領域的訓練和優化。

其二，知識庫。 知識庫是Agent的“記憶”，包括永久記憶和瞬間記憶。它通過向量檢索、系數檢索、混合檢索和狀態記憶等技術，存儲和檢索歷史會話和事件信息，為Agent提供決策支持。

其三，Prompt工程。 Prompt工程是Agent交互的核心。它不僅僅是為大模型設定角色和任務，更是一種新式的編程方式。通過精心設計的提示詞，可以引導大模型理解和執行復雜的任務。比如，任務拆解是Planner的基礎能力，而這些都需要提示詞的方向的擴展。

其四，Action/工具。 Action主要涉及到調用工具和接口，執行具體的任務。通過統一的形式和方法調用，簡化了Action的執行過程，使其更加高效。

#AIGC創新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？-AI.x社區
通過這些方面的綜合處理和協同工作，九章云極自研的Agent框架能夠實現高效、準確的交互和任務執行，同時保持靈活性和擴展性。這些組件共同構成了一個完整的AI Agent系統，使其能夠在各種復雜應用場景中提供服務。

4.落地：三大應用挑戰與解決方案

雖然擁有出色的Agent框架是一個很好的開始，但要實現Agent應用的真正落地，還需要面對一系列的挑戰。最初，人們普遍對Agent的能力抱有很高的期望。但在開發實踐中，常常會發現，Agent在運行看似正常的情況下，卻未能如預期那樣執行任務。

針對這種情況，薛磊總結了九章云極在推進Agent應用落地過程中所面臨的三大挑戰，并分享了相應的解決方案。

挑戰一：基座大模型的不可控性

未經專業訓練和微調的大型基礎模型在執行復雜操作指令時表現出較弱的理解和規劃能力。另外，不可忽視的是成本高和部署難的問題。

解決方案

垂直大模型：訓練專注于特定領域的大型模型，以提高對特定任務的理解和執行能力。
大模型+小模型：結合使用大型基礎模型與小型專業模型，利用小型模型處理特定任務，而大型模型負責分發和協調。

挑戰二：不可避免的大模型幻覺現象

大模型在執行任務時可能會出現幻覺問題，特別是在缺乏先驗知識和訓練數據的情況下，常常會導致任務拆解和計劃制定過程中出錯。

解決方案

模型微調：通過對模型進行特定領域的訓練，使其專注于某個專業領域，這樣它能在該領域內達到較高的準確度。
Prompt工程：通過精心設計的提示來引導模型的輸出，確保其按照預期的方式回答問題
DingDb多模數據庫：這是九章云極自研的多模向量庫，它能夠同時處理結構化數據和非結構化數據，實現數據的統一管理和查詢。使用多模態數據庫來提供輔助的記憶功能，幫助模型更好地理解和執行任務。

挑戰三：效率低下，交互緩慢

大模型推理速度不快，Agent通常需要多次調用大模型來完成任務，導致整體體驗緩慢，用戶等待時間長。還有，任務識別調用出現問題時，可能會導致多次問答的循環發生，導致交互的遲滯和用戶的困惑。

解決方案

模型加速：即通過優化方法減少不必要的輸入，從而降低模型的計算負擔。
容錯自查：即利用較小規模的模型對大型模型的結果進行復查驗證，以提高準確性和效率。

5.案例：“輔助辦公AI PPT”是如何運作的

隨后，薛磊簡單分享了三個Agent應用。

第一，會議預定。會議預定Agent遵循標準化的工作流程。用戶與Agent對話時，Agent會提取關鍵詞，并檢查是否包含會議參與者、時間及地點等必要信息。如果信息完整，Agent會調用預定接口完成會議安排；若信息不全，則繼續詢問直到獲取所有必需信息。

#AIGC創新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？-AI.x社區
第二，智能信息收集。智能信息收集Agent主要負責從對話中提取關鍵信息（如姓名、地點等），并通過設置提示信息、信息驗證和反饋機制來確保數據的準確性。例如，在保險報案場景中，Agent會引導用戶提供詳細的報案信息，并對提供的信息進行驗證，以確保信息的有效性和完整性。

#AIGC創新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？-AI.x社區
第三，輔助辦公 AI PPT。此應用幫助用戶通過對話生成PPT演示文稿。它結合了大模型的Planner功能，能夠根據用戶的需求生成PPT大綱和內容。用戶通過對話啟動PPT生成流程，Agent根據用戶的意圖和提供的信息（如主題、內容等）生成PPT大綱。用戶可以上傳文檔或提供主題，系統會根據這些信息生成PPT內容。

#AIGC創新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？-AI.x社區
薛磊介紹，AI PPT應用流程基于大模型的Planner，Planner分為兩大類：有狀態的Planner和無狀態的Planner。與大多數在線AI PPT創建工具相似，九章云極目前嘗試的是有狀態的Planner，它們都有預設的流程。不過，九章云極的Planner采用了有狀態的設計，這意味著它能夠根據用戶的對話歷史做出響應。