不吹不黑,拿到邀請碼一手實測Manus,還有人0天就復刻出了開源版
昨天,一個叫「Manus」的通用 AI Agent 產品引起熱議。它可以完成從文件處理、數據分析、代碼編寫到內容創作等多種任務,比如幫助用戶生成旅行計劃、分析股票數據、篩選簡歷或開發簡單的網頁游戲。
但是,由于「Manus」只發放了少量邀請碼,能夠體驗到這款應用的人數目前還比較少。在電商平臺上,邀請碼的價格一度被炒到幾萬元,甚至還有人做起了幫助他人申請 Manus 邀請碼的生意。
一系列行為,導致許多人無法直接體驗到 Manus,這也為 Manus 招來了不小的質疑聲音。
當然,大家最關心的還是 Manus 到底好不好用,這也是 Manus 的根本。
在拿到邀請碼后,機器之心進行了一些測試,并將體驗過程中感受到的 Manus 的優點和不足寫了出來。我們不做「吹噓」式的語言描述,只供大家參考。
此外,我們還注意到,一些行動力超強的 Agent 團隊已經做出了 Manus 的開源復刻,包括 CAMEL AI 團隊開源的 OWL 和 MetaGPT 團隊開源的 OpenManus。
據機器之心觀察,AI 學術 / 技術社區對于 Manus 的爆火保持相對冷靜態度,尤其是 Agent 領域的專業人士。關于如何評價 Manus,讀者可在了解相關信息后自行判斷。
接下來,我們先分享一下 Manus 的實際使用體驗。
Manus 效果如何?機器之心上手實測
首先來個基礎的,「寫個貪吃蛇小游戲」。是的,提示詞就這么簡單,看看 Manus 能否給我們帶來驚喜。
按下發送鍵之后,Manus 一共執行了 5 分多鐘,其中包含多步過程,包括創建貪吃蛇游戲文件、實現游戲基本機制、添加用戶控制功能、開發計分系統、進行游戲功能測試、編寫游戲使用說明文檔、打包并交付游戲。
下載其輸出的壓縮包,看看效果如何。比較費解的是,Manus 這一次的輸出結果是一個雙重壓縮包,也就是一個經過兩次壓縮的壓縮包。
實測一下,是可玩的。Manus 確實實現了貪吃蛇游戲的基本邏輯和計分系統,不過看起來沒有設定撞墻死亡判定,只有撞到自己時才會游戲結束。另外就是其網格線設計得過于明顯 —— 但如果我們能在提示詞中給出進一步的細節描述,效果應該會更好一些。
接下來,我們讓 Manus 分析一下 Manus 話題的傳播趨勢,我們給出的提示詞是:「檢索網絡,分析一下 Manus 話題的傳播趨勢,并寫一份總結報告。」
這一次,Manus 思考的時間更長了,達到了 14 分鐘,同樣也分成 7 個步驟:搜索 Manus 話題的基礎信息、分析 Twitter 平臺上的 Manus 話題傳播趨勢、在其它社交媒體平臺搜索 Manus 相關提及、整合趨勢分析數據、撰寫傳播趨勢總結報告。
其中每個步驟又包含若干小步驟,比如編寫一個 Python 腳本來使用 Twitter API 等等。
并且在執行過程中,我們也能展開「Manus 的電腦」,查看其瀏覽網絡和撰寫報告的過程。
不過這一次,Manus 的表現并不好,比如在「分析 Twitter 平臺上的 Manus 話題傳播趨勢」這一步,其未能成功使用 Twitter API,故而未能找到任何有用信息。它給出的解釋是:「我注意到在 Twitter API 搜索中未找到 Manus 相關推文。這可能是因為 Manus 是一個較新的產品,或者搜索條件需要調整。我將繼續在其他平臺搜索 Manus 的提及情況,以全面分析其傳播趨勢。」考慮到 Manus 當前的熱度,這個解釋顯然并不正確。
不管怎樣,還是來看看報告結果吧。如下動圖所示,輸出結果包含三個 Markdown 文件,分別是趨勢報告、趨勢分析和背景信息。整體上看,雖然沒有 Twitter 上的相關信息輸入,但是通過分析和引述知乎文章以及一些媒體報道,內容還算充實詳盡,其中甚至說明了 Manus 傳播中自媒體先行的傳播趨勢以及引發的爭議。
接下來試試看 Manus 能否幫助我們省錢:「預算 6000,給我配置一臺可以剪視頻、玩游戲的高性價比主機,把配置單發給我。」
這一次,Manus 規劃的任務步驟達到了 8 步:研究當前 PC 組件市場、分析視頻剪輯和游戲的硬件需求、分析視頻剪輯和游戲的硬件需求、創建詳細配置清單、驗證組件兼容性、優化性價比、準備最終配置文檔、發送配置給用戶。
下面動圖展示了 Manus 瀏覽網頁查找相關信息的過程示例(原過程慢得多,這里有所提速):
18 分鐘后,Manus 完成了這個任務,這是它給出的最終配置單。你覺得合理嗎?
接下來,我們試了試讓 Manus 玩 4399 小游戲。Manus 成功打開了網頁,但卻在登錄頁面受阻了。我們選擇接管頁面,微信登錄,沒有問題;但實名認證時卻出現了狀況 —— 我們無法在 Manus 內置的電腦中錄入中文。以下視頻展示了這次測試的全過程。
最后,我們嘗試了讓 Manus 根據我們提供的一個排版網頁編寫一個 Notepad++ 宏,方便我們的排版工作。為此,Manus 首先需要分析所提供的網頁完成的功能,然后還要學習 Notepad++ 宏的語法。
提示詞:把這個網頁 https://www.dute.org/type-setting 的功能轉寫成一個 Notepad++ 的宏。
這一次,Manus 足足思考了 21 分鐘,但結果卻不盡如人意:在 Notepad++ 中的實測結果表明,Manus 編寫的基本版和完整版都未能正確完成指定的任務,反而把我們的測試文本刪除了。
這一次,Manus 失敗了。
到這里,我們的每日用量限制就達到了極限,無法再進行更多測試了。
整體體驗下來,可以簡單總結一下 Manus 執行任務的過程:
首先,自然是分析問題。
接下來,Manus 會創建一個代辦事項,其中包含主要步驟以及每個主要步驟下的各個細分任務;這通常是一個 todo.md 文件。
之后,Manus 會按照這個 todo.md 文件的事項一步步地執行。
最后,整理好結果并發送給用戶。
以上配置電腦任務中已經執行到第 6 步的 todo.md 文件
至于效果,雖有失敗,但可以說整體還是相當不錯的。雖然用戶的體感速度很慢,但考慮到如果讓用戶自己來完成同樣的任務,可能會耗費更多時間,因此使用這種性能的智能體來輔助工作應該是個不錯的選擇。
開源復刻版 Manus
接下來,我們介紹兩個 Manus 開源復刻項目。
「別搶 Manus 邀請碼了,開源版已經在路上。」這是國內開源平臺 CAMEL AI 今天一大早帶來的好消息。
他們的 Manus 開源復刻版名叫「OWL」,在 GAIA Benchmark 上性能達到 57.7%,超越了 Huggingface 提出的 Open Deep Research 55.15% 的表現,成為開源界 GAIA 性能天花板。(GAIA 是一個用于評估通用人工智能助手能力的基準測試,Manus 也做了相關測試。)
GitHub:https://github.com/camel-ai/owl
為了讓 OWL 進化成真正的全自動多 Agent 打工神器,CAMEL AI 還對 Manus 的技術路線做了一波野生 Reverse Engineering(逆向工程),并順勢啟動了深度復刻計劃。
在這個計劃中,他們把 Manus 核心工作流拆成了 6 步:
該項目可以說是把技術框架、工作流程、核心能力全都公開,代碼全在 GitHub 上。感興趣的讀者可以自行跟進。
針對 Manus,CAMEL 的發起人李國豪評價說,「我們在提出全球首個 ChatGPT Multi-agent 框架思想也將近兩年了,看到 Monica 團隊把 Multi-agent 技術落地成產品是非常驚喜的,Monica 團隊的 Manus 系統設計其實非常巧妙,特別他們通過文件系統來實現 Context 管理和持久化、使用 Ubuntu 虛擬機的命令行來實現靈活的工具使用是非常值得學習工程思路,我們還在開源復現中!也非常期待他們承諾將要開源的 Post Training 模型!
除了 Web 和命令行的操控之外,我們非常有信心電腦、手機、機器人、車載等各種跨平臺的操控會成為可能,那時候才是真正的賽博 workforce,因為 OS 端 Agent 的一個最大的優勢是比較容易拿到 Verifiable 的獎勵信號,未來強化學習 RL 可以訓得飛起,也許會在一年內就會出現 DeepSeek R1 Zero 這樣的 Aha moment 出現在 OS / Web Agent 領域!可惜我們資源有限還上不去 RL,非常期待大家一起來做開源探索!」
OpenManus 是除了 OWL 之外的另一個 Manus 開源復刻,允許用戶無需邀請碼創建自己的 AI 智能體。其使用方法包括設置新的 conda 環境、克隆倉庫、安裝依賴并在 config.toml 文件中配置 API 密鑰(如 OpenAI 的 API)。用戶可以通過終端輸入想法,與智能體交互,智能體會使用 LLM API 處理并生成響應。
項目地址:https://github.com/mannaandpoem/OpenManus
其中,也有一些不同點。前文我們提到,Manus 是自己有個云端的電腦,而 OpenManus 則直接讓 Agent 操作你的電腦。
MetaGPT 團隊表示,當前項目仍在開發中,計劃改進包括更好的規劃、實時演示、重放功能、強化學習微調模型和全面基準測試。
最后想說的是,期待 Agent 在今年能給我們帶來更多驚喜,成為切實可用的產品。