成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開啟 AI 自主進化時代,普林斯頓 Alita 顛覆傳統通用智能體,GAIA 榜單引來終章

人工智能 新聞
近期,普林斯頓大學 AI Lab 推出了?Alita——一個秉持「極簡即是極致復雜」哲學的通用智能體,通過「最小化預定義」與「最大化自我進化」的設計范式,讓智能體可以自主思考、搜索和創造其所需要的 MCP 工具。

智能體技術日益發展,但現有的許多通用智能體仍然高度依賴于人工預定義好的工具庫和工作流,這極大限制了其創造力、可擴展性與泛化能力。

近期,普林斯頓大學 AI Lab 推出了 Alita——一個秉持「極簡即是極致復雜」哲學的通用智能體,通過「最小化預定義」與「最大化自我進化」的設計范式,讓智能體可以自主思考、搜索和創造其所需要的 MCP 工具。

圖片

Alita 目前已在 GAIA validation 基準測試中取得 75.15% pass@1 和 87.27% pass@3 的成績,一舉超越 OpenAI Deep Research 和 Manus 等知名智能體,成為通用智能體新標桿。Alita 在 GAIA test 上也達到了 72.43% pass@1 的成績。

極簡架構設計,最大自我進化

「讓智能體自主創造 MCP 工具而不靠人工預設」,是 Alita 的核心設計理念。

現有的主流智能體系統通常依賴大量人工預定義的工具和復雜的工作流,這種方法有三個關鍵缺陷:

  • 覆蓋范圍有限:通用智能體面臨的現實任務種類繁多,預先定義好所有可能需要的工具既不可行亦不現實。而且預定義工具很容易過擬合 GAIA,不具有泛化性。

圖片

  • 創造力與靈活性受限:任務的難度可能超出了預定義工具或工作流的能力范圍。復雜任務通常需要智能體創新性地使用新工具,或以新的方式組合和利用現有工具,而預定義的工具庫和工作流會制約這種創造性和靈活性。

圖片

  • 適配失配:不同工具的接口或環境未必與智能體兼容。例如,許多有用的工具并非用 Python 編寫,這使得它們難以(盡管并非不可能)提前預接到主要以 Python 編寫的主流智能體框架中。

圖片

這些挑戰共同限制了現有通用智能體的創造力、可擴展性和泛化能力。

與當前日益復雜的趨勢相反,Alita 團隊認為對于通用智能體而言,「simplicity is the ultimate sophistication」。遵循這一原則,Alita 實現了可擴展的動態能力、增強的創造力與靈活性,以及跨生態系統的兼容性。Alita 團隊由此提出了兩大設計范式:

  • 最小化預定義:僅為智能體配備最核心的基礎能力,避免為特定任務或模態設計人工預定義的組件。
  • 最大化自進化:賦予智能體按需自主創建、優化和復用 MCP 工具的能力,實現自我進化。

圖片

具體而言,Alita 僅內置了管理智能體(Manager Agent)網頁智能體(Web Agent)作為其核心內部組件,以及少量支持自主能力擴展的通用模塊,而不依賴繁雜的預定義工具庫和固定工作流程。Alita 利用了 Model Context Protocols(MCP) 這一開放協議,使智能體系統能根據任務需求動態生成、修改和復用 MCP 工具。相較于一般的工具創建,MCP 創建還具有更好的可復用性與更簡易的環境管理等優勢。這種從人工設計工具和工作流到即時構建 MCP 工具的轉變,為構建簡約而通用的智能體開辟了新路徑。

Alita 的執行流程:簡潔而高效

圖片

整體設計理念與系統架構

Alita 基于「最小預定義 + 最大自主進化」的設計范式,其總體結構十分簡單,僅由三個關鍵組件構成:

  • Manager Agent:充當中央協調器的角色,分析任務需求,調度不同模塊和工具,執行最終的聚合與回答生成。
  • Web Agent:負責搜索有用的外部信息,包括開源代碼、文檔等。
  • MCP 創建組件:由 MCP Brainstorming、ScriptGeneratingTool、CodeRunningTool 三個模塊組成,能夠進行自我能力評估、腳本生成與代碼執行,還能夠動態生成 MCP 工具并實現自我進化。

在整個流程中,Alita 通過不斷創建、驗證、優化新的工具,從而實現持續演化的智能閉環。

三大核心能力模塊

  • MCP Brainstorming 模塊:分析任務,思考需要什么工具

Alita 的第一步是調用 MCP Brainstorming 模塊,對輸入任務進行分析。該模塊會評估當前智能體是否已經具備完成任務所需的能力和工具:若已具備能力,就快速調度相應的工具;若能力缺失,則生成「能力缺口描述」和「MCP 工具構建建議」,以便后續創建新的 MCP 工具。

  • 腳本生成模塊:實時創建工具

檢測到能力缺口后,Alita 會啟動腳本生成模塊。該模塊根據管理智能體提供的任務描述與工具構建建議,結合網頁智能體檢索到的開源資源,生成一套可執行的外部 MCP 工具代碼。Alita 生成的 MCP 工具代碼有良好的封裝性與通用性,可直接集成進任務流程并支持后續復用。

  • 代碼運行與驗證模塊:確保工具能用,并不斷優化

新生成的工具首先會在虛擬環境中執行測試。系統會根據輸出判斷工具是否符合預期。如果工具運行成功,它將被正式注冊為可復用的 MCP 服務,納入任務調用體系;若運行失敗,系統則會自動進入診斷與修復流程,嘗試調整依賴版本、修改關鍵參數,甚至在必要時放棄當前工具,轉向新的解決方案。此外,每次運行過程都會被詳細記錄,以支持后續模型學習與工具演化,真正實現「自我進化」。

自我工具創建:Alita 的秘密武器

Alita 能夠自主創建并優化任務所需的工具,最后將新的工具打包為 MCP,可以在未來進行復用,或是給其他智能體系統使用。

例如,用戶的任務是詢問「這份 PPT 中有多少頁提到了甲殼類動物?」如果預定義的 PPT 處理工具僅將所有內容轉換為文本,就可能無法提取頁碼信息并回答問題。但 Alita 會動態創建一個合適的 PPT 處理工具,并將其封裝為足以解決該任務的 MCP。

另一個場景是,用戶的任務涉及 YouTube 視頻理解。現有的某些通用智能體所預定義的視頻分析工具僅是一個 YouTube 字幕抓取工具,然而部分視頻理解任務需要更深入的分析,僅讀取字幕無法徹底解決問題。Alita 能創建逐幀讀取視頻的 MCP 來解決更復雜的視頻理解任務——這種任務特定的 MCP 創建會根據任務難度動態調整。由于不是視頻理解領域的專家,Alita 團隊無法預先構想此類工具如何實現,直到 Alita 自動給出這個解決方案。該視頻理解組件后來還被復用至團隊的另一項工作《邁向多模態歷史推理:HistBench與HistAgent》(代碼庫已開源)。

Reference: On Path to Multimodal Historical Reasoning: HistBench and HistAgent

Link:https://arxiv.org/abs/2505.20246

性能突破:GAIA 基準測試的新標桿

GAIA 的終局已至,Alita 正是最終的答案。

在 GAIA 基準測試中,Alita 展現了卓越的性能表現。GAIA 作為評估通用 AI 助手實際解決問題能力的標桿測試,共包含 450 個涵蓋不同難度級別的測試題目。

Alita 在 GAIA Validation 測試中取得了 75.15% 的 pass@1 和 87.27% 的 pass@3 準確率,暫時位居所有通用智能體的第一位,超越了 OpenAI Deep Research(67.36% 的 pass@1)和 Manus。在數學推理測試 Mathvista 和醫學圖像識別 PathVQA 測試中,Alita 也分別達到了 74.00% 和 52.00% 的 pass@1 準確率,優于許多裝備復雜工具庫的智能體系統。

這些結果也表明,簡約架構并非性能限制,反而是激發智能體創造性行為的關鍵。通過強調最小化預編寫工具和最大化自主進化的設計哲學,Alita 成功實現了簡潔與性能的統一。

有趣的是,在 Alita 團隊發推特的第二天,GAIA validation 榜單被移除,Alita 團隊提出,或許是時候邁向 HLE、BrowseComp 和 xbench 了。

圖片

MCP 復用:智能體蒸餾新范式與自我進化

在 Alita 構建過程中,系統會動態生成一系列高質量的 MCP,作為解決任務的中間產物。值得注意的是,這些 MCP 的價值遠不止于完成一個任務這么簡單,它們可以在后續任務中被 Alita 調用,顯著提高性能和效率,也能被其他智能體復用。

具體來說,Alita 生成的 MCP 工具箱具備雙重優勢:

其一,智能體蒸餾,自動生成 MCP 的復用可視為一種全新的智能體蒸餾機制,相比傳統蒸餾方法,其成本更低且更高效。

圖片


  • 強智能體指導弱智能體:這些 MCP 可由其他較弱智能體復用,由 Alita(而非人類開發者)通過試錯設計出適配特定任務的 MCP 集,能顯著提升其性能。在不改變底層模型配置的情況下,僅通過引入 Alita 生成的 MCP,Open Deep Research-smolagents 在 GAIA 上的平均準確率從 27.88% 提升至 33.94%,實現了在所有難度等級上的一致性能提升。


  • 基于大模型的智能體指導基于小模型智能體:這些 MCP 同樣可被小模型智能體復用并顯著提升表現。即便使用算力更小、推理能力更弱的 GPT-4o-mini 模型,Alita 所生成的 MCP 也能顯著提升其性能:準確率從 21.82% 提升至 29.09%,Level 3 的準確率更是提升了三倍(3.85% → 11.54%)。

其二,自我進化,使 Pass@1 方法實現 Pass@N 效果:MCP 工具箱與 Alita 連接后,可將單次嘗試的通過率提升至近似多次嘗試的水平。

結語:簡約設計引領通用智能體未來發展范式

Alita 的成功證明,在智能體設計中,簡約性并非功能限制,而是系統演進的驅動力。當傳統方案陷入「工具膨脹,性能停滯」的困境時,Alita 通過動態協議機制實現了「架構簡化,能力增強」的正向循環。我們也相信,隨著大語言模型編寫代碼和推理能力的不斷提升,Alita 將會變得更加強大。未來通用 AI 助手的設計或大幅簡化,無需任何預定義工具和直接解決問題的工作流。相反,開發者可能更專注于設計激發通用智能體創造力與進化潛能的模塊。

隨著人工智能技術向通用化方向發展,這種融合簡約設計與自主進化特性的范式,必將成為構建下一代智能體的關鍵技術路徑——既保持核心系統的優雅簡潔,又能通過持續演化獲得近乎無限的擴展能力。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-10-28 14:05:00

2012-08-02 16:18:10

普林斯頓結構哈佛結構架構

2024-11-08 09:20:00

2025-06-03 09:31:16

2023-06-19 09:36:16

AI矩陣

2023-10-23 13:23:03

數據訓練

2025-03-10 12:09:37

2011-04-22 10:14:34

無線網絡DHCPAndroid

2022-07-26 09:56:48

模型AI

2023-12-05 13:25:00

數據訓練

2024-06-13 09:20:26

2024-07-22 08:30:00

神經網絡AI

2023-06-16 20:50:13

大模型

2024-09-25 14:41:15

2015-05-11 11:06:43

統一基礎架構系統華三通信UIS

2024-03-14 11:55:21

2020-12-02 10:05:26

AI 數據人工智能

2025-04-01 09:10:00

2014-12-18 16:22:44

華為
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www.亚洲精品 | 黄片毛片免费观看 | www.久久.com| 精品国产视频在线观看 | 久久免费视频网 | 日韩和的一区二在线 | 欧美一区二区三区 | 亚洲精品国产偷自在线观看 | 日韩在线视频一区 | 亚洲色综合 | 国产精品久久久久久久久久久免费看 | 欧美日韩一区二区三区在线观看 | 一区二区三区视频在线免费观看 | 91免费看片 | www.97国产| 一级黄色片一级黄色片 | 国产视频中文字幕在线观看 | 999免费观看视频 | 国产福利91精品一区二区三区 | 欧美一区二区成人 | 中文字幕在线观看一区 | 97色在线视频| 国产精品一区二区在线免费观看 | 精品国产一区二区三区观看不卡 | 成人自拍视频网站 | 天天操一操 | 久久香蕉网 | 国产福利在线播放 | 久久综合一区 | 久久网站免费视频 | 亚洲三级在线观看 | 国产日产久久高清欧美一区 | 免费观看一级毛片视频 | a级大毛片 | 一区二区三区在线免费观看 | 91在线视频播放 | 久久国产高清 | 国产一区h| 久久黄色网 | 国产精品国产精品国产专区不片 | 国产精品一区三区 |