從Manus到Gemini，首輪Agent競賽中有哪些關鍵信號？

發布于 2025-3-17 09:33

瀏覽

0收藏

嘿，大家好！這里是一個專注于前沿AI和智能體的頻道~

Manus 可能會成為一個導火索，引爆Agent的競爭。

在過去的幾個月里，頭部AI公司紛紛發布了自己的“智能體”產品。

目前來看，各家Agent產品各有側重，但我們開始看到兩條截然不同的技術路線：一類是基于工作流的“偽Agent”（如爆火但是很多人說的沒有護城河的Manus （該觀點不代表作者觀點）），它們本質上是將LLM和工具通過預定義代碼路徑進行編排；另一類是基于端到端訓練的“真Agent”（如DeepResearch和Gemini 2.0 Flash Thinking的各種衍生Agent應用），它們能夠動態指導自己的處理過程和工具使用，保持對任務完成方式的控制權。

當然整體上，我們還處于端到端訓練Agent的早期階段，這場以智能體為核心的第二幕AI競爭才剛剛開始。Agent技術仍在快速迭代，而這可能將重塑整個AI應用格局。

1.“模型即產品”將成為Agent時代的主導范式

當前AI行業正經歷一場范式轉變：從“模型即基礎設施”到“模型即產品”。大廠逐漸將模型本身打造成端到端的產品，而非僅僅作為應用層的基礎設施。

從Manus到Gemini，首輪Agent競賽中有哪些關鍵信號？-AI.x社區

這一轉變由幾個關鍵因素推動：

泛化性擴展遇到瓶頸：正如GPT-4.5所展示的，模型能力增長呈線性，而計算成本卻呈指數級增長，即使是OpenAI也難以負擔
端到端訓練效果超出預期：強化學習與推理的結合使模型突然擅長特定任務，這既不是機器學習，也不是基礎模型，而是一種全新的范式
推理成本大幅下降：最近DeepSeek的優化意味著全球現有GPU足以支持地球上每個人每天使用1萬token的前沿模型

在這種范式下，大模型提供商不再滿足于簡單銷售token，而是向價值鏈上游移動，將模型打造成直接面向特定場景的產品。OpenAI的DeepResearch和Anthropic的Claude 3.7 Sonnet就是這一趨勢的典型例子。

藏老師的神級prompt，讓任意文本直接變成酷炫的html頁面。claude 3.7 sonnet就是掌管SVG的神！Gemini 2.0語言模型原生的圖生成，體驗一天之后，仿佛還看不到邊界。。。

2.工作流Agent與端到端Agent的本質區別

目前市場上的Agent產品可以明確區分為兩類：

工作流Agent（如Manus AI）：

從Manus到Gemini，首輪Agent競賽中有哪些關鍵信號？-AI.x社區

這類產品本質上是LLM與工具的編排系統，通過預定義的代碼路徑和提示詞引導模型。雖然短期內見效快，但很容易遇到問題：硬編碼的規則無法擴展，在復雜場景中表現不佳。表現出：

無法有效規劃，容易陷入死角
記憶能力有限，難以維持10分鐘以上的任務
長期行動效率低下，錯誤會累積放大

端到端訓練Agent（如DeepResearch）：

這類產品通過端到端強化學習訓練，模型能夠動態指導自己的處理過程。OpenAI的DeepResearch就是“一個新形式的研究語言模型，專門設計用來執行端到端的搜索任務”。它不依賴外部調用或編排，而是通過強化學習習得了搜索、點擊、滾動和解釋文件的核心能力。

真正的Agent需要具備：

搜索和規劃能力
有效記憶和狀態管理
長期行動的可靠性

3.Google與OpenAI展示了不同的Agent發展路線

通過比較Google的Gemini 2.0 Flash Thinking和OpenAI的DeepResearch，我們可以看到兩種不同的Agent發展思路：

Google的多模態融合路線：

Gemini 2.0 Flash不僅在推理能力上有所提升，更在多模態應用上取得突破。它能同時理解和生成文本與圖像，支持文本+圖像生成、對話式圖像編輯等功能。Google還通過Deep Research功能、應用連接（YouTube、日歷、地圖等）和個性化功能，構建了一個面向普通用戶的Agent生態。