成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從Manus到Gemini,首輪Agent競賽中有哪些關鍵信號?

發布于 2025-3-17 09:33
瀏覽
0收藏

嘿,大家好!這里是一個專注于前沿AI和智能體的頻道~

Manus 可能會成為一個導火索,引爆Agent的競爭。

在過去的幾個月里,頭部AI公司紛紛發布了自己的“智能體”產品。

目前來看,各家Agent產品各有側重,但我們開始看到兩條截然不同的技術路線:一類是基于工作流的“偽Agent”(如爆火但是很多人說的沒有護城河的Manus (該觀點不代表作者觀點)),它們本質上是將LLM和工具通過預定義代碼路徑進行編排;另一類是基于端到端訓練的“真Agent”(如DeepResearch和Gemini 2.0 Flash Thinking的各種衍生Agent應用),它們能夠動態指導自己的處理過程和工具使用,保持對任務完成方式的控制權。

當然整體上,我們還處于端到端訓練Agent的早期階段,這場以智能體為核心的第二幕AI競爭才剛剛開始。Agent技術仍在快速迭代,而這可能將重塑整個AI應用格局。

1.“模型即產品”將成為Agent時代的主導范式

當前AI行業正經歷一場范式轉變:從“模型即基礎設施”到“模型即產品”。大廠逐漸將模型本身打造成端到端的產品,而非僅僅作為應用層的基礎設施。

從Manus到Gemini,首輪Agent競賽中有哪些關鍵信號?-AI.x社區

這一轉變由幾個關鍵因素推動:

  • 泛化性擴展遇到瓶頸:正如GPT-4.5所展示的,模型能力增長呈線性,而計算成本卻呈指數級增長,即使是OpenAI也難以負擔
  • 端到端訓練效果超出預期:強化學習與推理的結合使模型突然擅長特定任務,這既不是機器學習,也不是基礎模型,而是一種全新的范式
  • 推理成本大幅下降:最近DeepSeek的優化意味著全球現有GPU足以支持地球上每個人每天使用1萬token的前沿模型

在這種范式下,大模型提供商不再滿足于簡單銷售token,而是向價值鏈上游移動,將模型打造成直接面向特定場景的產品。OpenAI的DeepResearch和Anthropic的Claude 3.7 Sonnet就是這一趨勢的典型例子。

藏老師的神級prompt,讓任意文本直接變成酷炫的html頁面。claude 3.7 sonnet就是掌管SVG的神!Gemini 2.0語言模型原生的圖生成,體驗一天之后,仿佛還看不到邊界。。。

2.工作流Agent與端到端Agent的本質區別

目前市場上的Agent產品可以明確區分為兩類:

工作流Agent(如Manus AI):

從Manus到Gemini,首輪Agent競賽中有哪些關鍵信號?-AI.x社區

這類產品本質上是LLM與工具的編排系統,通過預定義的代碼路徑和提示詞引導模型。雖然短期內見效快,但很容易遇到問題:硬編碼的規則無法擴展,在復雜場景中表現不佳。表現出:

  • 無法有效規劃,容易陷入死角
  • 記憶能力有限,難以維持10分鐘以上的任務
  • 長期行動效率低下,錯誤會累積放大

端到端訓練Agent(如DeepResearch):

這類產品通過端到端強化學習訓練,模型能夠動態指導自己的處理過程。OpenAI的DeepResearch就是“一個新形式的研究語言模型,專門設計用來執行端到端的搜索任務”。它不依賴外部調用或編排,而是通過強化學習習得了搜索、點擊、滾動和解釋文件的核心能力。

真正的Agent需要具備:

  • 搜索和規劃能力
  • 有效記憶和狀態管理
  • 長期行動的可靠性

3.Google與OpenAI展示了不同的Agent發展路線

通過比較Google的Gemini 2.0 Flash Thinking和OpenAI的DeepResearch,我們可以看到兩種不同的Agent發展思路:

  • Google的多模態融合路線

Gemini 2.0 Flash不僅在推理能力上有所提升,更在多模態應用上取得突破。它能同時理解和生成文本與圖像,支持文本+圖像生成、對話式圖像編輯等功能。Google還通過Deep Research功能、應用連接(YouTube、日歷、地圖等)和個性化功能,構建了一個面向普通用戶的Agent生態。

  • OpenAI的專精特化路線

OpenAI選擇針對特定場景打造專精的Agent模型。DeepResearch專注于網絡搜索和文檔整理,通過端到端強化學習訓練,使模型能夠自主規劃搜索策略,交叉引用多個來源。這種專精策略使其在特定領域表現更為出色。

4.端到端訓練將成為Agent的主流形態

從長期來看,端到端訓練的Agent將逐漸成為主流,因為它更符合Agent的本質形態:模型能夠在循環中自主處理問題,具有更高的上限。

以包含4個子任務的串聯任務為例:

  • 工作流Agent:即使每個子任務成功率為95%,整體成功率也僅為81%
  • 端到端Agent:通過高質量數據+強化學習,有望將整體成功率提升至95%

未來可能會出現以下趨勢:

  • 頂級Agent的工程代碼將極其簡潔:背后是超高質量的訓練數據和極致的端到端強化訓練,所有if-else和工作流選擇由模型自身完成
  • 通用Agent更可能由基礎模型公司推出:如OpenAI、Anthropic、DeepSeek等擁有強大基模和強化學習工程師的公司更具優勢
  • 垂直領域Agent將成為創業公司的機會:專注特定行業或應用場景,通過深度優化實現差異化競爭

最后

Manus雖然當前waitlist 才200萬,但考慮到訪問權限限制和邀請碼等負面因素的影響,這一數據相較于其熱度而言并不算特別驚人。

從Manus到Gemini,首輪Agent競賽中有哪些關鍵信號?-AI.x社區

回到Anthropic的定義:LLM Agent是能“動態指導自己的處理過程和工具使用,保持對任務完成方式的控制權”。

工作流Agent vs 端到端Agent, 這個短期看起來就跟去年的長上下文模型 vs RAG 爭議一致,并不會有明確的結論。

scaling vs finetuning, scaling能讓模型的上限更高,但是finetuning能更快的適應到特定場景。

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲欧美日韩系列 | 精品综合 | 亚洲乱码国产乱码精品精98午夜 | 国产一区二区三区四区五区加勒比 | 国产精品一区二区三级 | 在线看91 | aaaa一级毛片 | 久久久久久久久久性 | 中文字幕欧美一区二区 | 欧美二区在线 | 超碰最新在线 | 欧美成人一区二区 | 粉嫩粉嫩芽的虎白女18在线视频 | 久久久久国产精品一区 | 亚洲精品一| 国产成人精品免费视频 | 久久国产福利 | 国产精品中文字幕在线 | 美女视频一区二区三区 | 日韩欧美在线视频播放 | 亚洲精品久久区二区三区蜜桃臀 | 三级黄片毛片 | 三级黄色片在线播放 | 免费一区二区 | 在线午夜 | 国产精品.xx视频.xxtv | 无码日韩精品一区二区免费 | 日本中出视频 | 电影91久久久 | 免费网站国产 | 成人av高清| 亚洲国产成人av好男人在线观看 | 暖暖日本在线视频 | 久色| 伊人网伊人 | 青青草一区 | 黄色福利| 久久久久久成人 | 成人h视频在线 | 亚洲免费人成在线视频观看 | 99免费精品视频 |