終結落地焦慮:突然火了的AI Agent,會成為破局的關鍵嗎? 原創
嘉賓丨繆旭
采訪/撰稿丨張潔
編輯丨諾亞
出品 | 51CTO技術棧(微信號:blog51cto)
有人說,現在大模型卷不動了,要卷就卷AI Agent。那么,事實真的如此嗎?
AI Agent,顧名思義即智能代理,是一種能夠感知環境、進行決策和執行動作的智能體。而它作為一個概念真正走紅,要從去年3月發布的AutoGPT說起。
彼時,AutoGPT項目讓人們發現——這種技術可以利用大語言模型,自動把一個大任務拆分成若干個小任務,并使用工具完成它們。
區別于被動響應用戶指令的大模型,AI Agent具備自主規劃和執行的能力。于是,自AutoGPT之后,GPT-Engineer、ChatDev、XAgent等項目次第爆發,將大模型推入了新的敘事階段。原本作為“超級大腦”的大模型有了落地為“全能助手”的潛力。
隨后的一年間,AI創投圈密切關注相關創業公司。國內外大廠也紛紛開始聚焦AI Agent的框架、平臺和應用開發。
到目前為止,AI Agent無疑是火了,但圈里圈外也多多少少都陷入了一種焦灼情緒:大模型還沒整明白,AI Agent又開始了…...
事實上,Agent目前尚處在在起步階段。一定程度上,AI Agent能力其實是和大模型相生的,大模型的能力邊界決定了AI Agent的能力邊界。
那么,AI Agent到底有何神奇之處?企業如果要部署AI Agent,需要做好哪些準備?它會成為大模型商業化的鑰匙嗎?
本期AIGC實戰派特別邀請九章云極DataCanvas AI首席科學家繆旭,結合其對于智能體的行業觀察和實踐總結,就上述議題進行逐一探討。
(為了行文表達的流暢,在不改變原意的情況下,對采訪內容做了適當的文本梳理)
1.AI Agent洞察:飛躍傳統AI,乘大模型東風而起
AIGC實戰派:相較傳統AI,AI Agent有何特別之處?
繆旭:這里的傳統AI,我理解為是針對特定任務的人工智能模型、系統或理論,比如計算機視覺中的分類任務,回歸模型中的時間序列預測,自然語言處理中的命名實體識別(NER)等等??梢钥吹剑@類AI明顯的特點是專注于特定任務:用途比較專一,訓練過程相對獨立。就像一個一個煙囪,彼此之間也沒有什么通用性。這是傳統的任務導向的AI系統。
而如今AI Agent(或者說智能體)的概念,更多強調的是通用能力??梢哉f,Agent是隸屬于AGI的應用體系,其發展得益于大模型。其一,隨著大語言模型的通用泛化能力的提升,AI Agent也因此進入了一個完全不一樣的發展圖景。
其二,在多模態大模型的能力加持下,AI Agent能夠理解視覺、聽覺和文本信息,獲得更全面的環境感知能力。有了這些信息之后,Agent的“角色”才會更加精準。
其三,Agent其實有很強的自主性,像人一樣,能夠試錯、學習和適應。犯了錯也會從中學習,進而改進其策略。這就是通用人工智能帶來的好處和變化。
在有了這些能力之后,Agent就可以處理一些更為復雜的任務,這就在某種程度上超越了單一任務導向的傳統AI。而且傳統AI系統的“煙囪式”架構需要大量代碼集成才能實現其落地,實現過程非常漫長。如今交由大模型或者Agent框架來做的話,極大地簡化了這一過程,減少了對編程能力的依賴,使用戶可以更專注于業務本身的落地。所以這也是這波AI Agent帶來的好處。
AIGC實戰派:從本質上講,AI Agent 與大模型的關系是什么?其本質區別是什么?
繆旭:本質區別的話,大模型在預訓練階段通常使用自回歸方法,這意味著模型依賴于已有數據的分布來預測下一個token。這種方法涉及到使用大量的數據樣本,這些數據樣本來源于前人的經驗和實踐。在自回歸訓練中,數據被轉換成語料,然后分割成token。模型的任務是預測下一個token。自回歸模型的能力受限于它所訓練的數據。如果訓練數據只包含了前人的經驗,那么模型的能力也可能僅限于此,難以超越既有的知識。
而AI Agent則強調自主性和適應性,它能夠通過嘗試不同的方法來探索、試錯和學習,并根據不同的評價(獲得獎勵或懲罰)來優化自己的策略。也就是說,AI Agent通過結合強化學習等技術可以實現自我進化,有潛力實現更加復雜和高級的認知任務。
如果從OpenAI的角度來看,他們實際上是希望整個Agent都可以用大模型來實現的。我覺得像GPT 4o即omni版本已經非常像Agent的框架了。之前OpenAI 的坊間傳說中有關于Q*算法的種種揣測,實質上它就反映了OpenAI正試圖通過Q*算法讓大模型本身具備Agent的能力。
AIGC實戰派:AI Agent會是實現AGI的關鍵鑰匙嗎?
繆旭:(AI Agent如Q*)會是非常重要的改進。就像知名 AI 學者、圖靈獎得主 Yann LeCun所說,他不看好自回歸LLM,自回歸 LLM 受限于前人經驗,對潛在現實的了解有限,缺乏常識,沒有記憶,而且無法規劃答案。從這個層面來說,AI Agent憑借其自主決策和自我進化的特性的確是更上了一層樓,但它究竟是不是實現AGI的關鍵,還有待商榷。
事實上,從AlphaGo開始就遵循了這一學習路徑。一開始AlphaGo學習專業棋譜,就像自回歸一樣,學習前人積累的經驗,后來開始用強化學習的方法生成新棋路,通過自我對弈來超越專業棋手。實際上這種訓練方法也取得了成功。但是本身這個任務還是比較像傳統AI,是一個非常專一的任務。它的評價系統很簡單,你明確地知道它的輸贏規則。評判標準是沒有任何歧義的。
但是放眼AGI的話,它其實是非常開放的。你很難去評判的原因在于:第一,有很多未知領域,人的知識邊界實際上是有很大局限的。在很多事情上無法判斷最終結果是好是壞;第二,評判受主觀因素影響較大。評判標準的主觀性容易導致不同價值觀之間的沖突,如果一個智能體在訓練時無法兼顧價值觀的多樣性,其學習結果往往可能不盡如人意,從而影響其在實際場景中的應用;第三,目前的AI智能體,盡管在某些領域比自回歸方法強,但并未完全實現自主脫離人進行自我進化的目標。因此,從整體來看,要以智能體作為實現AGI的必由之路還有相當的距離。
2.應用與挑戰:大模型場景落地,如何掌握關鍵之鑰
AIGC實戰派:有人說,AI Agent可能是大模型在To B場景落地的一個主要方式,它將會開啟大模型的下半場。您認同這一判斷嗎?
繆旭:我不太確定“下半場”的定義。但是我覺得,下一步,AI Agent會是比較現實的一個爆發點。正如吳恩達教授所說,某些特定問題,用Agent的方法去開發比用大語言模型本身得出的結果要好得多,AI智能體工作流可能比下一代基礎模型帶來更大的AI進展。因為有時候你使用的大語言模型可能不是那么強,要用這樣的大模型直接出結果難度會比較大,但通過Agent的方法,基于它的適應性和試錯能力,通過微調和不斷學習,很可能獲得比大語言模型更優的解決方案。
比如,要訓練一個像Sora一樣的視頻生成大模型會非常昂貴,但我之前讀過關于Mora的論文,Mora不是一個單獨的模型,而是一個多Agents視頻生成框架,結合多個高級視覺AI代理,復現了Sora的通用視頻生成能力。從這個角度來說,我覺得,落地AI Agent比較現實,也比較經濟,有時候會更貼合落地場景的需求。
AIGC實戰派:目前AI Agent發展現狀如何,有哪些主要的應用場景呢?
繆旭:首先,純文本的Agent現在是處于比較卷的狀態。再者,隨著GPT-4o的出現,多模態大模型越發受到關注。尤其是結合視覺信息,AI Agent將具備更強的多模態理解和決策能力,可能觸發新的應用場景。
具體到應用領域的話,Tesla的自動駕駛是很強且具有未來感的AI Agent應用案例,因為它是真正基于端到端的多模態大模型,從視覺入口,加之其他傳感器,直接去驅動其駕駛的效應器。這與當前的基于大語言模型構建的智能代理具有相當的差距。
自動駕駛要求其Agent具備實時決策能力,還要有極強的泛化能力以應對各種復雜情況。其任務通常是mission critical,任何小錯誤都可能付出巨大代價。所以Agent必須能夠處理大量corner case,適應各種極端狀況。因此,難度很大,挑戰很多,可以說Agent在自動駕駛乃至駕駛領域有很多落地的想象空間。
另外,還有應用較多的領域主要包括知識管家類、智能客服類、數據分析類,還有辦公自動化等,都有AI Agent發揮的空間。
AIGC實戰派:在構建AI Agent的過程中,可能會遇到哪些方面的挑戰?
繆旭:一方面,AI Agent需要能夠理解和適應特定行業的專業知識和業務邏輯,這可能需要額外的微調和訓練;另一方面,AI Agent需要提供自然和直觀的交互方式,以及滿足用戶需求的體驗,這可能需要深入理解用戶行為和偏好。
如果是通用的辦公類Agent,那可能會幫你省下不少時間,但是并不會帶給你特別多的其他信息。但如果是構建非通用的、專業化的AI Agent,比如法律類的Agent,那你就必須具備非常強的法律知識。這里實際上會涉及到很多專業領域的問題。如何結合你的專業知識,并最終獲得較好的落地效果,我認為是一個非常大的挑戰。
還有比較重要的一點是,要明白:人工智能去解決專業問題,跟人去解決專業問題有很大區別。雖然說AI可以替代一部分的專業能力,但是你要讓一個專業人員去理解人工智能做的決策的話,必須盡可能預判到可能存在的交流障礙。所以你做的這個智能體一定要讓專業人員能夠理解其角色,能夠進行有效交互,進而幫助專業人員來完成他的最終任務。
AIGC實戰派:大模型本身迭代周期較長。如果在大模型本身能力不提升的情況下,為了讓AI Agent取得比較好的落地效果,可以考慮采取哪些策略?
繆旭:首先,需要對專業的內在有深刻的洞察,能夠將任務分解為可由大模型跟隨執行的部分,做好規劃(planning)工作;其次,精確的評價至關重要,只有好的反饋才能找到優化的路徑;此外,需要提供沙盒環境允許智能體快速試錯,從而得到更優的結果。
3.部署與安全:企業抉擇,從沒有萬能公式
AIGC實戰派:企業如何評估當前階段需不需要使用AI Agent?確定部署的話,需要做好哪些準備?
繆旭:當前無論是大模型廠商,還是AI基礎設施廠商都在力推AI Agent,但實際上落地核心還是在于用戶。企業在決定是否使用Agent時,需考慮其能否幫助提高生產效率和開拓商業價值。
具體來說,首先需要深入挖掘痛點,尋找可以通過AI Agent解決的問題。比如,企業老板觀察到員工每天都要撰寫大量冗長重復的報告。通過使用 Agent來輔助寫報告,可以節省大量人力資源。而且Agent能夠24小時工作不會疲勞。從這個角度來看,在類似場景下,AI Agent的落地對企業的投入產出比是有增益的。同時,長期來看,應考慮產業升級目標,布局AI Agent對于加速智能化進程,獲得長遠效益是有幫助的。
確定部署Agent之后,在前期準備方面,企業需要收集足夠多的歷史數據,尤其是在垂直行業,需要構建針對專業需求的Agent時,這一點非常重要。只有做好數據方面的準備,才能避免后期收集數據與部署Agent的時間沖突,更好更快地實現Agent的效果。
AIGC實戰派:AI Agent的企業部署成本如何,對中小公司是否友好?
繆旭:目前來說,基建成本和訓練成本較高,耗時也長。但是相信隨著實踐的深入,硬件的改善,以及算法的優化,它的成本會快速地下降。
不過對于中小企業來說,現階段可能還是無法承擔部署AI Agent的成本,這種情況下可以考慮使用通用的大模型服務。因為不管如何,大模型廠商會分攤成本,但風險就是你需要把數據交由大模型廠商來保護,當你真正收獲AI Agent的成果,商業價值開始顯現時,再考慮私有化部署也是一條出路。
AIGC實戰派:在部署AI Agent時如何保障安全性?
繆旭:安全其實是一個比較復雜的問題。部署AI Agent時,首先要注意的是大模型本身的安全性。為了盡可能提升可靠性,需要使用RAG、一些特定驗證、后期測試等種種手段來降低大模型“幻覺”的影響。再者,要注意合規要求,部署時要符合法律與政策規定。此外,還涉及業務安全問題,例如缺乏對專業流程的深入理解可能導致意外操作。用戶或開發者需要從業務角度出發,測試并保護AI Agent的安全特性,防止出現潛在的安全漏洞。
四.評估與前景:普通人入局,需深耕細分領域精準發力
AIGC實戰派:如何評估一個AI Agent的成功?
繆旭:用戶參與度(Engagement)實際上是一個非常重要的指標。簡單來說,就是用戶是否頻繁地使用AI Agent,以及他們與Agent的交互頻率和深度。如果用戶定期返回使用Agent,這通常意味著Agent提供了價值。當然這一點通常與業務強相關,不同業務需求有不同的評價標準。
通常對于一般性的Agent,我們會有一些通用指標,這些指標有助于判斷一個AI Agent是否成功達到實際生產標準。比如:
- 性能:如果Agent能夠快速完成任務,且錯誤率低,則表明性能良好。
- 容錯性:如果用戶在提示詞中犯了小錯誤,Agent仍能夠正確理解并給出有用的響應,這表示Agent對錯誤輸入的容忍度高,有良好的容錯性。
- 隱私和安全性:如果Agent能夠確保用戶信息的安全,不泄露給未授權的第三方,這將是一個重要的成功指標。
AIGC實戰派:如果普通人想進入AI Agent賽道,您有哪些建議?
繆旭:我覺得問題關鍵在于深入挖掘某一專業領域的知識。我并不推薦你嘗試通用工具,因為如果沒有強大的基礎設施支持,提供服務將變得十分困難。大企業突如其來的一次革新就有可能把你籌謀許久的商業模式給顛覆了,所以我建議聚焦于某個專業領域,哪怕是一個非常細分的垂直市場,你也可以用AI Agent+something的方式來構建自己的“護城河”。
本文轉載自??51CTO技術棧??
