Agent不會在2025爆發 原創
作者 | 云昭
大模型已經在聚光燈下狂奔了28個月,時至今日,Agent已經被成為了包括黃仁勛、奧特曼、李彥宏、周鴻祎、吳泳銘等一眾科技大佬在內備受期待的2025爆發品。
可正如不久前“朱嘯虎不太看好機器人賽道”一般,Agent賽道同樣也存在著一場泡沫之下的非共識。
1.巨頭爭相較量,市場異常冷談
我們先從企業內部的Agent來看下。
進入去年下半年以來,大洋兩岸的軟件巨頭對AI Agent的投入越發顯得激進。2024年9月,全球SaaS巨頭Salesforce發布了“數字員工平臺”Agentforce,創始人Benioff異常激進地押注Agent,甚至對銷售團隊下達了“死命令”:銷售人員必須在每一筆訂單中將Agentforce打包賣給客戶。12月,Benioff更是揚言要再招2000名銷售為這款產品繼續拓寬市場。
微軟緊隨其后,首席執行官Nadella在去年10月一口氣發布了10款Agent,用于企業銷售、運營和服務,加劇了SaaS行業的Agent之爭。副總裁Bryan當時更是表示:這些Agent可以被視為AI時代真正的應用程序。
像Salesforce和微軟的巨頭對Agent的態度尚且如此,更不用說尋求轉型突破的中小企業。
但投入是一回事,市場買不買單則是另外一回事。據一些已經測試過Agentforce的客戶反饋,目前依舊沒有大規模使用該技術,原因在于這款產品還不夠成熟,尚存在準確性等問題。另一位客戶則表示,對于任何一款新軟件,他們通常需要12到18個月才能從試用過渡到在關鍵業務系統中運行。
此外,拋卻客戶因為性能問題而導致的冷淡態度不說,事實上老板本身為Agent付費的意愿也要打一個大大的問號。如今的Agent很難直接減少人工,更多還是為個人生產力服務的,但付費的卻成了企業決策者,讓老板為員工購買生產力這件事本身就像是個悖論。
在收費這一點上,國內的釘釘則比較克制,雖然開放了Agent功能的產品,但依舊供企業免費使用。
2.逃不開的C端套殼爭議
B端Agent難以破圈,那么C端的呢?的確近兩年有不少出圈的C端或D端(developer)的Agent應用,Manus和Devin都在此列。不過可惜的是,短期爆火之后很快就消失在大眾視野之外。
在外界看來,Devin和Manus的市場教育意義更大些。Devin帶火了AI編程賽道,而Manus則證明了一種通用Agent實現的方式:多Agent模式,同時讓Anthropic去年提出的用于AI應用開發的模型上下文協議MCP再次出圈。
幾天前,51CTO采訪了多位在負責AI產品開發的一線負責人,他們更多還是把目光投向了大模型廠商內部推出的Agent。在他們看來,OpenAI今年年初推出的兩款Agent堪稱業內樣板,更能代表業界Agent發展的現狀。這兩款分別是Operator,DeepResearch。
這兩款分別代表了兩個方向——前者代表了Computer use,在自動化、負責真實世界執行,而后者則為Knowledge research打了個好樣,旨在智能化、負責異步信息的推理。
這其實也是OpenAI打造Agent的路線圖:前者執行、后者思考,結合起來實現 OpenAI 對 Agent 的定位:獨立執行復雜任務。
一些圈內創業者、投資人表示,許多Agent不過是公式化套了GPTs的殼,補上了一些交互設計,預設了一些開放接口作為tools。這些看起來像個“產品”,但實際上并不具備真正解決問題的能力。
“現在市面上個人搭建的Agent,或許勉強能用,但能完成任務的復雜度和可控性都極為有限,遠不如大模型廠商直接提供的場景化產品好用。”
3.Agent是未來,但還遠不夠成熟
Agent本身定位是完成復雜任務,但現下看,先從簡單場景開始,也是無奈之舉。專注于AI應用開發的開源框架提供商LangChain的一份調查報告顯示:人們在長耗時任務中對AI Agent有較大需求,但同時,用戶對AI Agent普遍存在“完成質量”或“可靠性”方面的擔憂,AI Agent在復雜場景中并不一定能夠持續保持響應和問題解決路徑的準確性,因此有一半以上的受訪者在實際使用中會為AI Agent補充跟蹤和觀察的控件。
上個月 Perplexity 首席執行官 Aravind 在采訪中表示:“目前任何人聲稱 2025 年的Agents可以完全投入使用,都應該持懷疑態度。但我們正在嘗試找出一些可以率先落地的簡單場景,比如讓用戶購買商品時無需手動輸入信用卡信息和收貨地址等。這類簡單的工作流程。”
當然Agent不成熟還在于應用控制的生態上并不完善。比如Aravind就指出,目前沒有其他方式能讓 AI 代理同時控制多個應用,尤其是在 iOS 上,甚至無法訪問其他應用,這是蘋果生態的限制。而我們不想受制于蘋果的規則,所以需要尋找一個變通的方法。在短期內,瀏覽器是一個非常好的解決方案。
更關鍵的是,拋卻一些營銷意味頗重、令人印象深刻的Demo演示,Agent的準確性還遠未能適合用于生產環境。
即便強如OpenAI 的 Operator,其計算機使用和網絡瀏覽器的準確性也只達到了30%到50%,但仍然低于人類能力的70%以上。
圖源:OpenAI
同樣,Claude 的AI代理計算機界面(ACI)的性能僅相當于人類表現的14%。
下面這張來自TheAgentFactory的圖表顯示了AI Agent在成本、步驟和成功率方面的現狀。注意成功率大約只有20%。這些數據是當前情況的嚴峻現實。
來源:TheAgentFactory
除此之外,在安全性方面也有一些明顯的漏洞,比如一些研究表明,Agent在進行網絡瀏覽時容易受到惡意彈窗的攻擊等等。
最后就是Agent的開發成本問題。比如:假如市面上一些Agent需要使用操作系統的圖形用戶界面作為API,這樣每個Agent集成的開銷太大;又或者在回答復雜問題和從多個文檔中綜合信息時同樣也面臨著不小的挑戰,這也是OpenAI 將 DeepResearch為什么定價如此昂貴的原因之一。
4.2025,Agent局部爆發有可能嗎
從上面可以看出,現在Agent依舊處于早期炒作與探索階段。國內我們看到有一些不錯的產品形態,比如阿里推出的夸克“超級框”,阿里智能信息事業群總裁吳嘉表示,“超級框”不是ChatBot或搜索,而是直接交付結果的“超級Agent”——用戶在“框”中表達意圖,AI會調用工具與方法來幫你寫一份工作報告、旅游計劃,或是一份就醫指南。
不過國內大廠對于Agent的推動顯然更為克制。據悉目前夸克方面暫未嘗試重投入,因此在Agent模式上,暫時處于阿里自有工具調用的早期形式,未接入增加更多算力耗費與技術復雜性的中間調優與反饋。
再比如,我們了解到字節跳動Dev Infra團隊內部已開發出一款功能類似Manus的智能體產品,名為Dev Agent,主要通過集成內網知識庫與多種內部工具實現調研、開發、數據分析等任務。不過,Dev Agent是一款實驗性質的內部工具,僅面向開發部門內測使用。
而在大模型六小虎中,智譜對于Agent的方面走得更激進一些,積累許多前沿的Agent研究成果。就在剛剛過去的3月底,智譜在中關村論壇上發布了深度研究與操作能力并重的AutoGLM沉思,尤其在瀏覽器的使用,手機和電腦在內的工具使用能力全面的處于領先地位。
不過,問題的癥結在于,Agent能力的提升本身依賴于大模型的進化。Agent的可行領域將會是垂直領域而非通用。
MetaGPT核心貢獻者徐宗澤認為通用Agent大概率是一個偽命題。知乎直答產品負責人馬奎則在采訪中表示「通用模型+專用 Agent」會是更可行的方案。
一位AI Infra創始人認為,Agent目前的瓶頸有三點:一在某些非垂直領域,Agent 的模型本身做得還不夠好,對于與物理世界的交互,雖然在分析方面表現還不錯,但實際的交互能力還需要進一步提升;其二,算力成本相對較高,這導致有些應用其實很難實現,因為成本核算不過來。第三個問題是不同場景之間的壁壘,主要是數據集的問題。因為本身數據是私有的。只有把這些數據全部打通,才能用 Agent 的方式把它們整合起來,為你提供所需的服務,但這方面客戶的意愿度并不高。
不過他同時釋放了Agent在局部范圍內的樂觀信號。首先,在技術可靠性方面,即使在物理世界的交互上表現不夠好,或者數學運算還不夠精準,但在語言推理方面已經可以做得很好了。它可以輔助一些Action,比如幫你制作 PPT,或者自媒體的內容生成等已經可以落地,這是已經突破的部分。
其次,成本在持下降。DeepSeek的出現讓大模型的ROI得到了很大的提升。許多算力公司都在持續對它進行優化,包括內存優化、成本優化、硬件優化、模型優化,讓 token 成本持續下降。而且,這些事實上都可以用更低精度或者更便宜的方式去提供解決方案,讓產品真正落地,成本核算得過去,就能真正實現應用。
第三,場景方面。不同垂直領域擁有大量私有數據的公司,可以開發出特定領域的語言模型,以及不同領域的Agent。
5.寫在最后:Agent注定是場馬拉松
就如同微軟、Salesforce一樣,很多企業都認為轉型Agent是一個不可逆的趨勢,同時Agent也會帶來不同的運營和價值創造的方式。
然而,正如前文所說,面對全球數百家聲稱提供“AI Agent”的供應商,現在無論是在供應側側還是使用側都存在相當程度的炒作。我們需要從長遠的角度去看待Agent的演進,它是一場馬拉松,而非短跑沖刺。
技術可靠性、研發與使用成本、安全問題、數據隱私等問題都如同這場馬拉松上需要攻克的關隘,也不止是“創建一個可自動化的任務列表并測試Agent是否可以完成基準任務”僅此而已,Agent距離創造實際的生產價值,還有很長的路要走。
可喜的是,隨著國內外各大科技企業的投入,Agent成熟的路徑已然清晰起來:大模型是能力基座,以Operator的執行和以DeepResearch為代表的復雜推理依舊將是今年的主旋律。
參考來源:
??https://hub.baai.ac.cn/view/40485??
??https://fund.eastmoney.com/a/202503263356649497.html??
本文轉載自??51CTO技術棧??,作者:云昭
