AI Agent:人類工作范式的顛覆者還是人機協作新范式? 原創 精華
編者按: 當前大熱的大語言模型和檢索增強生成模型,雖然在語言理解和內容生成方面取得了突破性的進展,但仍然存在諸多限制。它們缺乏根據目標導引行為、持續學習和與環境交互的能力,難以應對復雜多變的現實場景需求。
今天為大家帶來的這篇文章,作者的觀點是人工智能領域正朝著開發更智能、更自主的 AI Agent 系統邁進,這將徹底改變我們使用人工智能的方式。
作者相信人工智能的未來必將呈現出更智能、更自主的 AI Agent 形態。這種新型人工智能系統不再是簡單的語言模型,而是集成了推理引擎、知識庫、工具集成等多種能力于一體,能夠深入理解環境、制定目標并自主采取行動,從而在諸多領域大顯身手。我們有理由相信,AI Agent 將成為人工智能發展的新引擎,并最終改變人類的工作和生活方式。
本文對 AI Agent 這一概念進行了較為全面的解讀,讓我們一同認識 AI Agent ,認清發展趨勢,做好迎接未來的準備。
作者 | Aniket Hingane
編譯 | 岳揚
生成式 AI 只是人工智能發展的開端,未來可能會出現更先進的 AI 智能體系統(AI Agent),我們應當重視 Andrew Ng(譯者注:Andrew Ng 是斯坦福大學計算機科學系和電氣工程系的客座教授,曾任斯坦福人工智能實驗室主任。他與達芙妮·科勒一起創建了在線教育平臺Coursera。)、Andrej Karpathy (譯者注:Andrej Karpathy 是一名斯洛伐克裔加拿大計算機科學家,曾擔任特斯拉人工智能和自動駕駛視覺總監。他曾任職于OpenAI,專門研究深度學習和計算機視覺。)等 AI 領域權威人士對于這一趨勢的分析和看法。
01 本文主題
人工智能的未來將會是 Agentic(譯者注:能夠像人類一樣,根據環境、知識和目標來自主進行決策和做出相應行為。)!本文將探討什么是 AI Agents ,并梳理 AI 行業內部對這一概念的理解和定義。
文章的核心內容是闡釋和探索 “AI Agents” 這一概念,這種技術將在決定和影響未來發展方向上變得越來越關鍵。期望讀者能通過閱讀本文對 “AI Agents” 有一個全方位的認識,不僅掌握它們的基本特性,還能了解到它們是如何被運用于各種行業場景中的。接下來,本文將展開討論這些內容。
02 為何不容錯過本文?
我相信本文的內容你絕不會想錯過的——因為當前正處于一個工作模式和工作環境快速變化的關鍵時期。
人工智能領域正不斷發展,不再局限于狹窄、專業化的應用模型,而是朝著創造高度智能、較為自主的 AI Agent 這一技術方向前進。 這些 Agent 能夠在大多數領域中真正幫助人類提高思維能力、工作效率或解決問題的能力,實現與人類智能的有效互補和增強。
閱讀本文,我十分相信你將理解為什么整個 AI 領域都傾向于開發 advanced AI agents ,這些 Agent 有可能徹底改變我們處理和利用人工智能的方式。
無論您是對人工智能有著豐富經驗的“老鳥”,還是剛踏入這個領域的“菜鳥”,了解 AI Agent 的發展軌跡對于保持信息暢通和積極參與未來的變革之旅都至關重要。
若你想要探究以下內容,本文必定不容錯過:
- 洞悉行業革新路徑:洞悉 AI Agent 將如何革新各行各業及個人職業生涯?
- 成為 Agent 的先行者:掌握創建并用好 AI Agent 的秘訣。
- 突出重圍,搶占高地:在瞬息萬變的科技浪潮中不掉隊,甚至成為 AI Agent 時代的“弄潮兒”。
03 LLMs 和 RAG 不好用嗎,為什么還需要 AI Agent 呢?
盡管大語言模型(LLMs)和檢索增強生成(RAG)模型已經極大地擴展了我們在語言生成任務方面所能達到的界限。但是 AI Agent 強調的是綜合智能,包括但不限于決策制定、環境交互和跨領域的知識應用,這樣的智能系統能夠適應更復雜的任務需求,并在與人的交流合作中展現出更強的靈活性和實用性。
AI Agent 之所以不可或缺,歸結于幾個核心因素:
- 根據目標任務導引行為(Goal-oriented behavior):大語言模型(LLMs)與檢索增強生成模型(RAG)的主要任務是根據訓練數據中的 patterns (譯者注:指代算法在訓練過程中從大量輸入數據中學習到的常規性特征或規律,在此處應當是指語言模型通過分析文本學習到的詞匯使用、句法結構或語境含義的規律。)創造出類似人類創造的文本內容。盡管如此,它們在靈活且智能地設定和追求具體目標等方面仍存在一定的劣勢。反之,AI Agent 則能夠被設計為具備清晰目標,并能夠策略性地規劃和采取行動,實現既定目標。
- 記憶和狀態跟蹤的能力(Memory and state tracking):目前大多數語言模型并不具備持續記憶或跟蹤狀態的功能,每個輸入信息(input)都會被單獨處理,不會考慮前后關聯。相比之下,AI Agent 設計有 internal state (譯者注:Agent 在運行過程中維護的一種數據結構,存儲了到目前為止處理的所有信息和過去的經驗。能夠表現出某種形式的記憶能力,基于過去的信息來影響當前的決策或輸出。)維護機制,能夠不斷積累知識,并運用這些累積的 state 信息為后續的決策(decisions)和行為(actions)提供依據,實現更加智能化的 AI 系統運作模式。
- 與環境進行互動的能力(Interaction with the environment):大語言模型(LLMs)的工作局限于文本范疇,一般不涉及與物理現實世界的直接互動。相比之下,AI Agent 能夠感知并干預它們所處的環境,無論是數字世界(digital world)、機器人系統(robotic systems),乃至通過傳感器(sensors)與執行元件(actuators)感知的真實物理世界。
- 知識遷移與場景泛化(Transfer and generalization):雖然 LLMs 擅長與其訓練數據類似的語言任務,但它們往往難以將知識遷移到全新的領域或任務中。而 AI Agent ,憑借其學習、推理及策略規劃的綜合能力,有能力更好地將知識遷移和推廣應用到新的場景中。
- 長期學習能力(Continual learning):大多數語言模型一旦訓練完畢,其狀態就會趨于靜態固定。而 AI Agent 則可以在與新環境進行交互和不斷處理新情況的過程中,邊學習邊優化自身知識體系與掌握的技能。
- 多領域任務處理能力(Multi-task capability):LLMs 通常是針對特定語言任務(比如文本生成、機器翻譯等)而專門設計的,它們的能力比較專一。而 AI agents 則可以被設計為通用的、多任務的 AI 系統,擅長無縫融合語言處理、邏輯推理、感知理解及控制操作等多種技能,來與人類一同應對那些既繁復又多元的難題。
04 AI Agent 將如何改變世界?
假定你正在規劃一次行程繁復的旅行:
LLM:能為你介紹各色旅游景點,或分享一些旅行小貼士。
RAG:擅長尋找、挖掘關于旅行??目的地的精彩博客與深度文章。
AI Agent:在此基礎之上,更能:
- 根據你的旅行預算精挑細選航班與住宿信息
- 一鍵完成所有預訂流程
- 自動整合個人旅行行程至個人日歷
- 出發前搭配相關溫馨提醒,附上必備資訊,確保無憂出行。
05 清晰理解 LLM、RAG 和 AI Agent 等概念
1. 任務導向(Task Orientation) vs. 通用知識(General Knowledge)
- LLM:在語言理解和內容生成方面表現出色,堪比包羅萬象的信息寶庫。
- RAG:通過查找、搜尋相關關鍵信息來增強 LLMs 的能力,但其重點仍聚焦于知識整合與文本內容創造。
- AI Agent:因實現特定任務而生,能夠在理解語言和在現實世界或數字系統中采取行動之間架起一座橋梁。
2. 環環相扣的多步邏輯推理
- LLM 和 RAG:通常聚焦于單個輸入(input)的即時解析與反饋。
- AI Agent:能步步為營,執行復雜任務鏈條。
- 首先,檢索信息(類似 RAG 策略)
- 繼而,處理信息,并基于這些信息做出決策
- 最后,付諸行動,例如:
- 發送電子郵件
- 自動預約服務
- 智能家居設備操控
3. 掌握主動權
- LLM 和 RAG:通常僅對 prompt 直接做出回應。
- AI Agent:可以主動行動、操作。它們能夠:
- 監控數據流,并提醒出現的關鍵性變化
- 根據用戶偏好主動行動
- 隨著對用戶的了解加深,能夠學習并逐步調整行為,以便更好地符合用戶需求
4. 能夠與現有系統進行集成
- LLM 和 RAG:傾向于在獨立環境中運行。
- AI Agent:則被設計為與多種系統及 API 接口進行對接:
- 可以無縫接入、訪問用戶電子郵件或日程信息
- 能夠與數據庫進行交互
- 調度管理用戶授予權限的軟件與硬件設備
06 AI Agent 架構主要包含哪些核心要素?
AI Agent 擁有構建一個能夠自主地理解環境、做出決策并執行任務的 AI 系統所需的核心結構元素和關鍵組成部分。通常涵蓋了以下幾個基本方面:
- 智能推理引擎(A Reasoning Engine):AI Agent 的核心,通過利用強大的大語言模型(LLM)來深度理解自然語言、獲取知識并推理復雜問題。
- 知識庫(Knowledge Base):作為 AI Agent 的“大腦”,存儲著與任務相關的事實資料、過往經驗和執行任務相關的個性化設定。
- 工具集成、聯結平臺(Tool Integration):允許 AI Agent 通過應用程序接口(API)與各種軟件應用程序和服務進行交互,從而擴展其操縱和控制環境的能力廣度和深度。
- 環境感知模塊(Sensory Input):為 AI Agent 裝備上感知周遭世界的“眼睛”和“耳朵”,從文本、圖像乃至各種感應器中獲取實時數據。
- 人機交互界面(應當屬于其中的一個關鍵部分):一座搭建在用戶與 AI Agent 之間的溝通橋梁,促進與人類用戶之間的無縫溝通和高效協作。(雖然目前尚無廣泛認可的標準化用戶體驗框架,但隨著技術的飛速進步,出現一套更為成熟或普及的交互標準可計日而待。)
上述所提到的這些核心結構元素共同構成了一個能夠自主解決問題的智能 AI 系統。AI Agent 能夠分析問題,制定分步驟執行的解決方案和行動計劃,并且具備充分的能力和決心去實施其解決方案,從而使得它們成為人工智能領域內一股變革性的新力量,有望推動 AI 向更高級階段邁進。
Thanks for reading!
Aniket Hingane
Passionate about applying AI to practical uses,I simplify complex concepts & designs in concise articles, making complexity accessible one short piece at a time
END
本文經原作者授權,由 Baihai IDP 編譯。如需轉載譯文,請聯系獲取授權。
原文鏈接:
??https://medium.com/@learn-simplified/why-entire-ai-field-is-headed-towards-ai-agents-a268ac9661ed??
