從Manus到Gemini,首輪Agent競賽中有哪些關鍵信號?
嘿,大家好!這里是一個專注于前沿AI和智能體的頻道~
Manus 可能會成為一個導火索,引爆Agent的競爭。
在過去的幾個月里,頭部AI公司紛紛發布了自己的“智能體”產品。
目前來看,各家Agent產品各有側重,但我們開始看到兩條截然不同的技術路線:一類是基于工作流的“偽Agent”(如爆火但是很多人說的沒有護城河的Manus (該觀點不代表作者觀點)),它們本質上是將LLM和工具通過預定義代碼路徑進行編排;另一類是基于端到端訓練的“真Agent”(如DeepResearch和Gemini 2.0 Flash Thinking的各種衍生Agent應用),它們能夠動態指導自己的處理過程和工具使用,保持對任務完成方式的控制權。
當然整體上,我們還處于端到端訓練Agent的早期階段,這場以智能體為核心的第二幕AI競爭才剛剛開始。Agent技術仍在快速迭代,而這可能將重塑整個AI應用格局。
1.“模型即產品”將成為Agent時代的主導范式
當前AI行業正經歷一場范式轉變:從“模型即基礎設施”到“模型即產品”。大廠逐漸將模型本身打造成端到端的產品,而非僅僅作為應用層的基礎設施。
這一轉變由幾個關鍵因素推動:
- 泛化性擴展遇到瓶頸:正如GPT-4.5所展示的,模型能力增長呈線性,而計算成本卻呈指數級增長,即使是OpenAI也難以負擔
- 端到端訓練效果超出預期:強化學習與推理的結合使模型突然擅長特定任務,這既不是機器學習,也不是基礎模型,而是一種全新的范式
- 推理成本大幅下降:最近DeepSeek的優化意味著全球現有GPU足以支持地球上每個人每天使用1萬token的前沿模型
在這種范式下,大模型提供商不再滿足于簡單銷售token,而是向價值鏈上游移動,將模型打造成直接面向特定場景的產品。OpenAI的DeepResearch和Anthropic的Claude 3.7 Sonnet就是這一趨勢的典型例子。
藏老師的神級prompt,讓任意文本直接變成酷炫的html頁面。claude 3.7 sonnet就是掌管SVG的神!Gemini 2.0語言模型原生的圖生成,體驗一天之后,仿佛還看不到邊界。。。
2.工作流Agent與端到端Agent的本質區別
目前市場上的Agent產品可以明確區分為兩類:
工作流Agent(如Manus AI):
這類產品本質上是LLM與工具的編排系統,通過預定義的代碼路徑和提示詞引導模型。雖然短期內見效快,但很容易遇到問題:硬編碼的規則無法擴展,在復雜場景中表現不佳。表現出:
- 無法有效規劃,容易陷入死角
- 記憶能力有限,難以維持10分鐘以上的任務
- 長期行動效率低下,錯誤會累積放大
端到端訓練Agent(如DeepResearch):
這類產品通過端到端強化學習訓練,模型能夠動態指導自己的處理過程。OpenAI的DeepResearch就是“一個新形式的研究語言模型,專門設計用來執行端到端的搜索任務”。它不依賴外部調用或編排,而是通過強化學習習得了搜索、點擊、滾動和解釋文件的核心能力。
真正的Agent需要具備:
- 搜索和規劃能力
- 有效記憶和狀態管理
- 長期行動的可靠性
3.Google與OpenAI展示了不同的Agent發展路線
通過比較Google的Gemini 2.0 Flash Thinking和OpenAI的DeepResearch,我們可以看到兩種不同的Agent發展思路:
- Google的多模態融合路線:
Gemini 2.0 Flash不僅在推理能力上有所提升,更在多模態應用上取得突破。它能同時理解和生成文本與圖像,支持文本+圖像生成、對話式圖像編輯等功能。Google還通過Deep Research功能、應用連接(YouTube、日歷、地圖等)和個性化功能,構建了一個面向普通用戶的Agent生態。
- OpenAI的專精特化路線:
OpenAI選擇針對特定場景打造專精的Agent模型。DeepResearch專注于網絡搜索和文檔整理,通過端到端強化學習訓練,使模型能夠自主規劃搜索策略,交叉引用多個來源。這種專精策略使其在特定領域表現更為出色。
4.端到端訓練將成為Agent的主流形態
從長期來看,端到端訓練的Agent將逐漸成為主流,因為它更符合Agent的本質形態:模型能夠在循環中自主處理問題,具有更高的上限。
以包含4個子任務的串聯任務為例:
- 工作流Agent:即使每個子任務成功率為95%,整體成功率也僅為81%
- 端到端Agent:通過高質量數據+強化學習,有望將整體成功率提升至95%
未來可能會出現以下趨勢:
- 頂級Agent的工程代碼將極其簡潔:背后是超高質量的訓練數據和極致的端到端強化訓練,所有if-else和工作流選擇由模型自身完成
- 通用Agent更可能由基礎模型公司推出:如OpenAI、Anthropic、DeepSeek等擁有強大基模和強化學習工程師的公司更具優勢
- 垂直領域Agent將成為創業公司的機會:專注特定行業或應用場景,通過深度優化實現差異化競爭
最后
Manus雖然當前waitlist 才200萬,但考慮到訪問權限限制和邀請碼等負面因素的影響,這一數據相較于其熱度而言并不算特別驚人。
回到Anthropic的定義:LLM Agent是能“動態指導自己的處理過程和工具使用,保持對任務完成方式的控制權”。
工作流Agent vs 端到端Agent, 這個短期看起來就跟去年的長上下文模型 vs RAG 爭議一致,并不會有明確的結論。
scaling vs finetuning, scaling能讓模型的上限更高,但是finetuning能更快的適應到特定場景。
