AI Agent要如何修煉,才能真正落地? 原創
嘉賓丨薛磊
撰稿丨諾亞
出品 | 51CTO技術棧(微信號:blog51cto)
本文整理自九章云極DataCanvas資深算法工程師薛磊在WOT2024大會上的主題分享,。
在AI技術日新月異的當下,智能體(Agent)技術正迅速崛起,成為AI領域的一大熱點。Agent技術在各行業應用場景中表現出巨大潛力,然而伴隨著機遇的同時,Agent技術的發展以及應用落地也面臨著諸多挑戰。
在近期落幕的WOT全球技術創新大會上,九章云極DataCanvas的資深算法工程師薛磊,聚焦于Agent的構建與落地,從理論框架到實踐案例,分享了他在Agent領域的洞見和經驗,探討了Agent技術在當今人工智能生態中的定位與價值。
1.概述:AI Agent是如何興起的
首先就AI Agent是什么,薛磊做了簡要概述。
就定義來說,Agent一詞起源于拉丁語中的"Agere",意思是“to do”。在現代人工智能領域,Agent被定義為能夠自主理解、規劃決策、執行復雜任務的智能體。就組成來說,Agent通常由大型語言模型(LLM)加上規劃、記憶、工具調用和執行能力組成。某種程度上,兩者可以類比為人類的大腦和雙手。
在大模型時代,Agent技術得到了顯著的發展和應用。一方面,大模型相當于Agent的“大腦”,提供了處理復雜任務所需的智能和知識。另一方面,大模型的興起降低了使用AI Agent的門檻,使得更多的人和應用能夠利用這些技術。
那么,Agent是如何工作的呢?簡單來說,Agent的整體框架由三個關鍵部分組成:大腦、感知、行動。
- 大腦:由大型語言模型組成,負責存儲知識、記憶,并進行信息處理和決策。
- 感知:感知模塊擴展了Agent的感知空間,使其能夠處理文本、聽覺和視覺等多種模態的輸入。
- 行動:行動模塊接收大腦模塊發送的行動序列,并執行與環境交互的行動。
這些組成部分使Agent能夠像人類一樣進行思考、感知和行動。在薛磊看來,雖然通用大模型在許多領域都表現出色,但Agent可以針對特定的垂直領域進行優化和擴展。作為一個模塊,Agent可以作為輔助工具,被集成到更大的系統中,輔助不同行業、職業以及個人,其設計和功能使其能夠在不同的應用場景中發揮關鍵作用,同時保持靈活性和可擴展性。
2.組成:量身定制一個框架
隨后,薛磊重點介紹了Agent框架。
在計算領域,Agent框架指導智能體如何感知環境、如何做出決策、如何采取行動。換句話說,它提供了一種組織智能體行為、決策及交互的方法,使它們能夠適應環境變化并高效達成目標。
當前有許多主流的Agent流程框架中,而ReAct是應用比較廣的。ReAct為什么受歡迎呢?
究其原因:一是提升交互質量。ReAct允許模型在執行任務的過程中生成推理軌跡,這意味著模型可以邊思考邊行動,同時記錄下自己的思考過程;二是適應復雜任務。ReAct框架下的模型可以在執行過程中動態調整策略,這使得它們能夠處理那些多步驟、具有不確定性和動態變化的任務;三是通過將推理和行動相結合,ReAct增強了模型的決策能力。模型不僅依賴于靜態的預先訓練知識,還可以根據新信息進行實時學習和調整,這在處理復雜多變的場景時尤為重要。
薛磊提到,九章云極自研Agent框架有五個核心部分,分別是Session、Agent、Action、Tool、Planner。
圖片
- Session:代表用戶與Agent的交互會話,作為思維的主線,記錄用戶與Agent交互的整個生命周期。
- Agent:作為交互的核心,負責理解和響應用戶的需求,觸發相應的計劃和行動。
- Planner:負責制定計劃和策略,根據用戶的需求和上下文信息,規劃Agent的行動步驟。
- Action:涉及到Agent執行具體動作的能力,包括調用內部或外部的工具來完成任務。
- Tool:工具或資源,供Agent在執行任務時調用,如搜索引擎、數據庫或其他應用程序。
關于自研框架的交互過程,薛磊做了進一步說明。
當用戶通過對話或其他方式向Agent提出需求或問題時,Agent通過Prompt工程中的意圖識別技術,理解用戶的意圖。Planner再根據用戶的意圖和上下文信息,制定行動計劃。之后Agent根據計劃,通過Action調用相應的Tool執行任務。執行完畢后,Agent將結果反饋給用戶,如果需要,還可能進行多輪對話以優化結果。
而在整個交互過程中,Alaya-Session會充當這個過程的記錄者。它記錄用戶與Agent的每一次會話,包括用戶的請求、Agent的響應以及交互過程中的所有細節。一來它記錄用戶的交互歷史,這種記憶功能使得Agent能夠在后續的交互中利用歷史數據,提供更加個性化和連貫的服務;二來通過結合歷史上下文和當前會話的信息,Alaya-Session可以幫助Agent更準確地把握用戶意圖。
圖片
3.構建:打造出色的Agent系統
不過,薛磊也提到,在開發Agent框架的過程中,團隊使用了多種開源工具來輔助構建和測試他們的系統。其中ChatGPT4作為優秀的工具,在過程中發揮了重要作用,但隨著開發和測試的深入,使用ChatGPT4等工具的費用、調用次數或其他限制條件開始成為問題。
當無法繼續依賴這些工具時,記錄會話過程中的所有信息就變得尤為重要。記錄的數據將用于對模型進行后期微調,以改進其性能和適應性。這可能涉及到調整模型以更好地適應特定的任務或優化其在特定場景下的表現。同時,通過分析記錄的數據,開發者可以對框架進行初步選擇或調整,以確定哪些組件或策略最有效,哪些需要改進。
薛磊表示,在構建和優化Agent框架的過程中,團隊從以下幾個關鍵方面進行了處理,以確保系統的高效性和智能性。
其一,基座大模型。基座大模型相當于Agent的“大腦”,決定著任務的起因、結果和成功率。它在處理垂直領域的專有名詞時尤為重要。例如,在電信行業中,套餐的名稱和價格是特定領域的術語,這些在通用大模型中可能不被理解。因此,需要對基座大模型進行特定領域的訓練和優化。
其二,知識庫。知識庫是Agent的“記憶”,包括永久記憶和瞬間記憶。它通過向量檢索、系數檢索、混合檢索和狀態記憶等技術,存儲和檢索歷史會話和事件信息,為Agent提供決策支持。
其三,Prompt工程。Prompt工程是Agent交互的核心。它不僅僅是為大模型設定角色和任務,更是一種新式的編程方式。通過精心設計的提示詞,可以引導大模型理解和執行復雜的任務。比如,任務拆解是Planner的基礎能力,而這些都需要提示詞的方向的擴展。
其四,Action/工具。Action主要涉及到調用工具和接口,執行具體的任務。通過統一的形式和方法調用,簡化了Action的執行過程,使其更加高效。
圖片
通過這些方面的綜合處理和協同工作,九章云極自研的Agent框架能夠實現高效、準確的交互和任務執行,同時保持靈活性和擴展性。這些組件共同構成了一個完整的AI Agent系統,使其能夠在各種復雜應用場景中提供服務。
4.落地:三大應用挑戰與解決方案
雖然擁有出色的Agent框架是一個很好的開始,但要實現Agent應用的真正落地,還需要面對一系列的挑戰。最初,人們普遍對Agent的能力抱有很高的期望。但在開發實踐中,常常會發現,Agent在運行看似正常的情況下,卻未能如預期那樣執行任務。
針對這種情況,薛磊總結了九章云極在推進Agent應用落地過程中所面臨的三大挑戰,并分享了相應的解決方案。
挑戰一:基座大模型的不可控性
未經專業訓練和微調的大型基礎模型在執行復雜操作指令時表現出較弱的理解和規劃能力。另外,不可忽視的是成本高和部署難的問題。
解決方案
1、垂直大模型:訓練專注于特定領域的大型模型,以提高對特定任務的理解和執行能力。
2、大模型+小模型:結合使用大型基礎模型與小型專業模型,利用小型模型處理特定任務,而大型模型負責分發和協調。
挑戰二:不可避免的大模型幻覺現象
大模型在執行任務時可能會出現幻覺問題,特別是在缺乏先驗知識和訓練數據的情況下,常常會導致任務拆解和計劃制定過程中出錯。
解決方案
1、模型微調:通過對模型進行特定領域的訓練,使其專注于某個專業領域,這樣它能在該領域內達到較高的準確度。
2、Prompt工程:通過精心設計的提示來引導模型的輸出,確保其按照預期的方式回答問題
3、DingDb多模數據庫:這是九章云極自研的多模向量庫,它能夠同時處理結構化數據和非結構化數據,實現數據的統一管理和查詢。使用多模態數據庫來提供輔助的記憶功能,幫助模型更好地理解和執行任務。
挑戰三:效率低下,交互緩慢
大模型推理速度不快,Agent通常需要多次調用大模型來完成任務,導致整體體驗緩慢,用戶等待時間長。還有,任務識別調用出現問題時,可能會導致多次問答的循環發生,導致交互的遲滯和用戶的困惑。
解決方案
1、模型加速:即通過優化方法減少不必要的輸入,從而降低模型的計算負擔。
2、容錯自查:即利用較小規模的模型對大型模型的結果進行復查驗證,以提高準確性和效率。
5.案例:“輔助辦公AI PPT”是如何運作的
隨后,薛磊簡單分享了三個Agent應用。
第一,會議預定。會議預定Agent遵循標準化的工作流程。用戶與Agent對話時,Agent會提取關鍵詞,并檢查是否包含會議參與者、時間及地點等必要信息。如果信息完整,Agent會調用預定接口完成會議安排;若信息不全,則繼續詢問直到獲取所有必需信息。
圖片
第二,智能信息收集。智能信息收集Agent主要負責從對話中提取關鍵信息(如姓名、地點等),并通過設置提示信息、信息驗證和反饋機制來確保數據的準確性。例如,在保險報案場景中,Agent會引導用戶提供詳細的報案信息,并對提供的信息進行驗證,以確保信息的有效性和完整性。
圖片
第三,輔助辦公 AI PPT。此應用幫助用戶通過對話生成PPT演示文稿。它結合了大模型的Planner功能,能夠根據用戶的需求生成PPT大綱和內容。用戶通過對話啟動PPT生成流程,Agent根據用戶的意圖和提供的信息(如主題、內容等)生成PPT大綱。用戶可以上傳文檔或提供主題,系統會根據這些信息生成PPT內容。
圖片
薛磊介紹,AI PPT應用流程基于大模型的Planner,Planner分為兩大類:有狀態的Planner和無狀態的Planner。與大多數在線AI PPT創建工具相似,九章云極目前嘗試的是有狀態的Planner,它們都有預設的流程。不過,九章云極的Planner采用了有狀態的設計,這意味著它能夠根據用戶的對話歷史做出響應。
用戶可以通過自然語言與系統交流,而且這種對話是靈活的。這意味著用戶不僅可以按照既定的流程進行,還可以隨時跳出流程,進行閑聊或其他操作。這種靈活性得益于前端路由機制,它可以根據用戶的指令來決定是否繼續當前的流程。
圖片
通過這種方式,輔助辦公AI PPT應用能夠更加靈活地響應用戶需求,并有效生成高質量的PPT文檔。
6.結語:面向未來的思考
最后,薛磊提到了他對于未來Agent發展趨勢的幾點思考。在他看來,以下三個方向值得關注:
其一,Multi- Agents的集成爆發。多智能體系統中,這些智能體可以是不同的軟件程序、機器人、傳感器等,它們各自具備一定的智能和自主性。MAS的核心思想是通過多個智能體的協作與協調,共同完成一個復雜任務,從而實現單個智能體無法完成的目標。
其二,跨平臺部署。隨著開源生態的蓬勃發展,以及模型能力的持續提升,未來PC端和移動端將廣泛部署更加智能、個性化且功能豐富的系統級Agent,為用戶提供無縫、高效的跨平臺服務體驗。
其三,多模態能力的擴展。目前這一領域正處于快速發展階段。GPT-4o的出現也令人振奮。未來Agent將超越傳統的文本對話,通過整合動作識別、語言理解、情感分析等多模態交互能力,并與硬件設備深度融合,實現更加自然、直觀且智能的交互體驗,真正成為人們日常生活中不可或缺的智能伙伴。
????本文轉載自??51CTO技術棧??,作者:諾亞
