卷瘋了！2.2k Star通用型、開源Agent平替Manus、GenSpark AI

發布于 2025-6-6 07:54

瀏覽

0收藏

2025 年是 Agent 之年。AI 能力現在已經在多個領域達到了人類水平，我們都將擁有觸手可及的代理團隊，在我們的個人生活、工作及其他方面幫助我們。

隨著代理群的到來，通過 MCP、A2A 和其他協議連接起來，我們認為這些協議的核心必須具有堅實、開放、透明和可審計的基礎。對于真正重要的事情尤其如此——管理我們的健康、教育我們的孩子、協調我們的財務系統等等。這些可以集成專有和專家系統，以兩全其美。

今天分享的 II-Agent，不僅在可用代理的基準中名列前茅，而且是完全開源的。并且正在構建的更廣泛的智能互聯網系統的一個組成部分：數據集、模型、代理、集群和系統，這些系統將完全開放，以應對每個受監管的行業，并實現最大程度的采用和調整。

Agent爆發

自主 AI 代理的興起標志著我們與技術交互方式的重大飛躍——從被動工具轉變為能夠獨立執行復雜任務的智能系統。其中最突出的開發成果是 Manus 和 GenSpark AI，這兩個尖端的閉源代理就是這種演變的例證：

Manus 于 2025 年 3 月正式推出。Manus 旨在自主橋接人類意圖和任務執行，能夠獨立處理各個領域的復雜活動，包括數據分析、內容創建、編碼和個人協助。借助多模式功能，它可以無縫處理和生成文本、圖像和代碼，并與瀏覽器、代碼編輯器和數據庫等工具順利集成，以執行實時任務和工作流程自動化。Manus 通過用戶互動不斷適應，改進其方法以提供越來越個性化的結果。它在 GAIA 基準測試中取得了顯著的表現，得分約為 65%，并在首次發布時聲稱是最先進的。它有效地應用于商業分析、教育內容生成、創意媒體和個人組織。

GenSpark AI 是一種創新的 AI 代理引擎，它通過采用多代理框架來生成針對用戶查詢量身定制的自定義實時“Sparkpages”，從而重新構想傳統搜索。該系統中的每個 AI 代理都專注于不同類型的信息，為創建全面、公正的內容提供獨特的見解。與將用戶引導至現有網頁的傳統搜索引擎不同，GenSpark 綜合來自各種知名來源的信息，提供不受商業影響或 SEO 驅動內容的綜合結果。這些 Sparkpages 配備了 AI 副駕駛，可促進動態用戶交互和對主題的更深入探索。通過最大限度地減少瀏覽多個鏈接和廣告的需求，GenSpark 提供了更清晰、信息更豐富、更高效的數字體驗，徹底改變了用戶在線訪問信息并與之交互的方式。

II-Agent，是一款通用的智能助手，旨在簡化和增強跨多個領域的工作流程。以下是其核心功能的概述，包括與 Manus 和 GenSpark 提供的功能和性能相當的功能和性能：

核心能力

II-Agent 是一款多功能的開源助手，旨在提高跨領域的工作效率。從研究和內容創建到數據分析、編碼、自動化和問題解決，它通過智能、結構化的支持來適應您的需求。深入了解更智能的工作流程，并幫助塑造開放、通用的 AI 的未來。

主要功能	II-Agent 能做什么
研究與事實核查	多步驟 Web 搜索、源三角測量、結構化筆記記錄、快速摘要
內容生成	博客和文章草稿，課程計劃，創意散文，技術手冊，網站創作
數據分析與可視化	清理、統計、趨勢檢測、圖表和自動報告生成
軟件開發	跨多種語言的代碼合成、重構、調試、測試編寫和分步教程
工作流程自動化	腳本生成、瀏覽器自動化、文件管理、流程優化
解決問題	分解、替代路徑探索、逐步指導、故障排除

輸出示例：

卷瘋了！2.2k Star通用型、開源Agent平替Manus、GenSpark AI-AI.x社區

方法

II-Agent 系統代表了一種構建多功能 AI 代理的復雜方法，能夠處理各種任務，從深入研究和數據分析到軟件開發和交互式內容生成。我們的方法以強大的函數調用范式為中心，由強大的大型語言模型（LLM）驅動，并得到高級規劃、綜合執行能力和智能上下文管理的支持。這種設計理念受到該領域觀察到的成功策略的啟發，例如使用強推理模型（如 Anthropic 的 Claude 3.7 Sonnet）來完成復雜的編碼任務 [3]。

1. 核心代理架構和 LLM 交互

II-Agent 的作核心是一個中央推理和編排組件，它與基礎 LLM（特別是 Anthropic 的 Claude 3.7 Sonnet）直接且最佳地連接。代理的作周期是迭代的，并遵循以下幾個關鍵原則：

系統提示：每個交互周期都從 LLM 收到全面的系統提示開始。此提示是根據當前作上下文動態定制的，包括有關代理工作區、底層作系統和臨時數據（例如，當前日期）的信息。至關重要的是，它定義了代理的角色、其可用功能庫、工具參與的明確規則（包括 Web 瀏覽、shell 命令執行、文件系統作和軟件開發）、首選語言風格、內容生成指南、錯誤恢復協議以及其沙盒執行環境的詳細信息。
交互歷史管理：整個對話的時間順序記錄被精心維護。這包括用戶提供的指令、代理的文本響應、代理調用的任何功能（工具）以及執行這些功能時觀察到的結果。這段歷史構成了 LLM 后續推理的主要背景基礎。
智能上下文管理：專用的上下文管理系統在每次調用 LLM 之前分析交互歷史記錄。該系統估計當前對話的令牌占用情況，并在預定義的令牌預算（例如 120,000 個令牌）面臨超出的風險時戰略性地應用截斷技術。這些技術旨在濃縮或總結對話的舊部分，同時優先考慮完全保留最新和相關的交流。
LLM 調用和能力選擇：LLM 通過此精選的對話上下文、總體系統提示以及當前可用功能或“工具”的動態更新清單來調用。
響應解釋和工具執行：LLM 的輸出可以表現為對用戶的直接文本響應，或者更常見的是，表現為使用一個或多個可用功能的指令。我們當前的框架側重于在每個推理周期處理單個功能調用，以確保有條不紊地執行。調用技能時，代理會識別并執行負責該作的相應內部模塊。然后，此執行的結果被系統地記錄回交互歷史記錄中，為下一個周期提供信息。
迭代細化和任務完成：這個推理、能力選擇、執行和觀察的循環迭代繼續。當代理確定任務已完成（通常通過調用特定的“完成”功能發出信號）、達到最大輪次數或收到外部中斷時，該過程將結束。

2. 規劃與反思：結構化推理能力

II-Agent 高級問題解決能力的一個關鍵要素是其用于結構化規劃和反思推理的專用機制。這種能力在概念上與 Anthropic 的 “think” 工具一致，該工具主張在復雜的工具使用場景中為元認知提供離散空間 [4]。這種顯式的規劃模塊也被認為在軟件工程等任務的高性能代理架構中至關重要 [3]。

這種結構化推理功能使代理能夠：

將復雜問題分解為更小的可作步驟，從而通過復雜的任務實現系統化的進展。
通過清楚地闡明其內部推理過程，使其決策背后的邏輯透明且可審查，將其戰略意圖外化。
按順序思考，逐步進步，同時保持足夠的靈活性，以便在出現新的挑戰或見解時重新制定計劃。
反思以前的決策，當新信息表明更好的前進道路時，能夠重新審視和修改以前的步驟。
探索替代策略，在需要時從其原始推理路線中分支出來，同時保持主要目標在眼前。
保持開放式和迭代性，即使在得出初步結論后也要繼續思考，如果不確定性仍然存在或有更好的解決方案。
形成和測試假設，根據其推理鏈驗證結果并重復該過程，直到得出令人滿意的解決方案。

每次調用此規劃功能都會在代理的交互歷史記錄中記錄一個結構化的 “想法”。這為決策過程創建了透明的審計跟蹤，這對于調試、了解代理行為和促進問題解決策略的迭代改進非常寶貴。

3. 執行能力：多功能工具包

卷瘋了！2.2k Star通用型、開源Agent平替Manus、GenSpark AI-AI.x社區

II-Agent 被賦予了一組豐富的功能或“工具”，使其能夠與環境交互、處理信息并生成不同的輸出：

文件系統作：代理可以在其安全的指定工作區中查看、創建和修改文件。它的編輯功能非常復雜，支持精確的字符串替換和基于行的插入。一個關鍵功能是它能夠在修改文件時智能地匹配和維護現有的代碼縮進樣式，這對于保持源代碼的完整性和可讀性至關重要。
命令行執行：代理可以訪問持久性 shell 環境，使其能夠執行任意 shell 命令。這種交互是穩健的（通過 pexpect 或類似機制）。該系統支持命令篩選，允許對命令進行透明修改或包裝，例如，將執行重定向到容器化環境。這提供了一種靈活且安全的方式來管理依賴關系和執行上下文，這種技術也因其在標準化代理評估中的實用性而受到關注[3]。
Web 交互：

導航和管理瀏覽器會話：包括導航到 URL、創建和在選項卡之間切換。

模擬用戶交互：例如單擊元素、在表單字段中輸入文本、滾動和按鍵盤鍵。

捕獲和分析瀏覽器狀態：每次作后，都會截取屏幕截圖并將其返回給代理。代理使用其視覺功能分析屏幕截圖以了解頁面并確定下一步作，例如單擊按鈕或字段。

初始信息檢索：為了快速收集信息，代理利用工具執行 Web 搜索（例如，通過 Tavily API、SerpAPI、FireCrawl）并從指定的 URL 中提取主要文本內容。如果此提取的內容足以完成任務，則可以避免進一步的瀏覽器作，從而優化速度和效率。
高級瀏覽器自動化：當任務需要的不僅僅是文本輸入，例如視覺解釋或網頁交互時，II-Agent 會利用一組高級瀏覽器自動化工具。這些是建立在 [10] 之上的，它利用 lmnr-ai/index [11] 以及語言模型（例如 Claude Sonnet 3.7 或 GPT-4o）的視覺功能，使代理能夠：
任務完成：專用功能允許代理正式發出已完成分配任務的信號，并提供合并的最終答案、摘要或一組可交付成果。
專業能力：代理的體系結構專為可擴展性而設計，可以合并適用于各種模式的專用工具。當前的高級功能包括 PDF 文本提取（利用 pymupdf）、音頻轉錄和語音合成（通過 Azure 上的 OpenAI 模型）、圖像生成（在 Vertex AI 上使用 Google 的 Imagen 3）以及從文本生成視頻（通過 Vertex AI 上的 Google Veo 2）。
深度研究整合：雖然 Claude 3.7 Sonnet 在編碼和順序規劃方面表現出色，但他們執行長時間復雜推理和解決困難數學問題的能力仍然不如人意。因此，為了進一步提高 II-Agent 的能力，我們將 II-Researcher [12] 擴展為可用于增強 II-Agent 能力的研究工具。

4. 上下文管理

卷瘋了！2.2k Star通用型、開源Agent平替Manus、GenSpark AI-AI.x社區

在可能漫長而復雜的交互中有效管理 LLM 的有限上下文窗口至關重要。II-Agent 實現了一個復雜的上下文管理系統來解決這個問題：

Token 使用預估：該系統采用令牌計數機制來估計發送到 LLM 的對話歷史記錄的大小。這通常涉及啟發式方法（例如，文本的字符與標記比率）和富媒體（如圖像）的特定計算。
戰略截斷：當估計的令牌數量接近 LLM 的運營預算時，將應用截斷策略：

標準截斷：基線方法包括總結或省略舊工具輸出或內部代理審議的內容。此策略優先考慮保留對話中最近輪次的完全保真度，因為這些輪次通常與下一步最相關。

針對大型輸出的基于文件的存檔：對于可以產生異常詳細的輸出（例如網頁的完整文本內容）的功能，采用更高級的策略。完整內容不是直接包含在 LLM 的直接上下文中，而是將完整內容存檔到代理專用工作區中的文件中。然后，對話歷史記錄會使用指向此存檔文件的緊湊占位符或參考標記（例如，[內容保存到：]）進行更新。這允許代理“記住”信息的存在，并且可以在后續步驟中明確需要時通過讀取文件來檢索它，而不會持續消耗 LLM 活動上下文窗口的大部分。該技術對于涉及大量數據處理或審查的任務特別有價值，與在復雜的軟件工程工作流中管理大型工件的實踐保持一致 [3]。

上下文管理系統透明地記錄通過這些策略實現的代幣節省，幫助分析和優化代理的對話效率。

5. 實時通信和交互

II-Agent 使用 WebSockets 整合了實時通信接口，以促進交互式用例。它通常使用 FastAPI 等框架實現。

連接到 WebSocket 服務器的每個客戶端都會實例化一個專用的隔離代理實例。這些實例在其安全的工作區中運行，通常映射到文件系統上的唯一子目錄，確保并發會話不會干擾。
代理利用內部消息隊列將重要的作事件（例如思考步驟的啟動、工具調用、工具執行的結果或瀏覽器狀態更改）流式傳輸回連接的客戶端。這通過提供對代理正在進行的活動的實時可見性來實現響應式用戶體驗。
服務器架構通常還包括用于輔助功能的 API 端點，例如允許用戶將文件直接上傳到其特定代理的工作區、提供必要的輸入或資源。

基準：

基準：我們的模型在GAIA 基準上進行評估，旨在評估在現實場景中運行的基于 LLM 的代理。GAIA 基準測試在多個維度上測試代理的能力，包括多模式處理、工具利用率和 Web 搜索，需要不同的自主性和復雜性。
評估指標：遵循 GAIA 基準，我們采用準確性作為我們的主要評估指標。
繼 OpenAI Manus 之后，我們也將驗證集用于我們的基準測試