成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<code id="rhjmr"><dl id="rhjmr"></dl></code>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

Manus引爆智能體復現潮！DeepSeek已被整合，項目擠滿開源榜，海外大V排隊求碼

作者：量子位 2025-03-10 09:30:00

人工智能新聞

目前進度最快的兩個項目，都是在Manus發布的第0天發布了復現代碼。

Manus背后公司名為“蝴蝶效應”，真的帶火了整個智能體賽道——

開源復現潮出現了，商業閉源產品也卷起來了。

目前進度最快的兩個項目，都是在Manus發布的第0天發布了復現代碼。

除了之前介紹的OpenManus之外，另一個開源項目OWL已經把DeepSeek模型整合到多智能體協作框架中。

OWL來自國內開源社區CAMEL-AI團隊。

OWL最新提交的結果在智能體測試基準GAIA的驗證集上排名平均分第3，在開源項目中排第1。

其Level 1分數81.13同樣超過了OpenAI的Deep Research，與Manus曬出的86.5已經非常接近。

雖然Level 2和Level 3分數還有差距，不過CAMEL-AI團隊的李國豪在交流群中表示，有信心刷爆。

今日的GitHub熱榜上，大多是Agent相關的項目和工具庫，老牌Agent項目MetaGPT與AutoGPT雙雙被頂到前排。

Camel-AI、OpenManus所使用的代碼庫browser-use也現身，此外金融、編程等領域的垂直智能體也備受關注。

與此同時，有人注意到Claude團隊推出的模型上下文協議MCP不是已經有小半年了么，為什么突然每個人都在討論它？

原來是每個人都想知道如何造一個Manus，而MCP是一種有效的實現途徑呀。

Manus火到海外

再來看看Manus本尊的進展。

官方社交媒體賬號被短暫禁封后現已恢復，稱將發布更多演示和更新。

Manus這個產品也成功火到了國外，方法很簡單：發邀請碼。

除了給海外大V單獨發之外，Manus聯創季逸超還與抱抱臉CEO取得聯系，公開分享100個碼，見者有份，先到先得。

兩人的交流中季逸超談到Agent能力可能更多的是對齊問題而不是基礎能力問題，基礎模型被訓練為“無論任務有多復雜，都一次性回答所有問題”，而“只需對代理軌跡進行一點后期訓練，就可以立即產生顯著的變化”。

（順便碼不用去試了，半夜就搶光了。）

海外用戶得到碼之后的劇情和這邊差不多，有不少試用之后被驚艷到的，變成“自來水”的。

并且海外用戶的付費意愿確實要強一些，畢竟比起OpenAI兩萬美元一個月的博士級智能體總是要便宜許多。

很多人拿到Manus做的第一件事，都是讓他收集自己的資料，編寫并部署個人主頁。

其中Rowan Cheung表示Manus收集到關于他的個人信息100%準確且是最新的。

類似的任務還有日本網友讓Manus部署一個介紹他自己的網站。

他分享了體驗中的一個細節：雖然Manus可以自己完成所有任務，但如果在執行過程中給出意見，它也可以靈活地改變計劃并執行，就好像真的再給人下達指令一樣。

更復雜的編程類任務還有制作一個javascript的飛行游戲。

也有人把它當做Deep Research類工具，尋找租房信息只花了不到10分鐘時間。

主要的抱怨集中在速度有些慢，以及沒有碼。

One More Thing

作為Manus出圈的副作用之一，GAIA基準測試正在成為智能體類產品必爭之地。

GAIA由Meta AI、HuggingFace和AutoGPT團隊推出，圖靈獎得主Yann LeCun和HuggingFace首席科學家Thomas Wolf參與，旨在解決現有大語言模型基準測試被快速突破、難以評估新模型的問題。

GAIA測試由450+具有明確答案的復雜問題組成，分為三個難度級別，考驗智能體系統的工具使用能力以及自主性。

Level 1：通常解題步驟不超過5步，且不需要工具，或最多使用一種工具。如簡單的信息檢索和處理，任何優秀的語言模型都可以完成。

Level 2：需要在5-10步之間完成，并且需要組合使用不同工具。如“根據附件 Excel 文件計算當地快餐連鎖店食品（不含飲料）的總銷售額”。

Level 3：面向近乎完美的通用AI助手，要求AI能夠執行任意長度的復雜動作序列，使用多種工具，并具備廣泛的世界知識和信息獲取能力。

如“在2006年1月21日NASA的每日天文圖片中有兩名宇航員，截至2023年8月，找出較小宇航員所在NASA宇航員小組中在太空停留時間最短的宇航員及其停留時間”，解答這類問題需要綜合網絡搜索、信息篩選、知識推理等多種能力。

人類在Level 2、和Level 3上的成功率分別是92%和87.3%，測試推出時最先進的語言模型GPT-4得分為9.7%和0。

此外GAIA排行榜分為測試集（Test）和驗證集（Validation）兩項，其中驗證集是公開數據，測試集為私有數據，測試集的含金量更高一些。

目前測試集排行榜中，h2oGPTe Agent（來自H20.ai）、Trase Agent（來自Trase Systems）兩個商業閉源系統的Level 2分數與Manus公布分數（70.1%）接近。

Manus團隊公布的Level 3分數為57.7%，領先幅度比較大。

ImageNet數據集與競賽開啟了深度學習浪潮之后，每個時代都有自己的當紅榜單指引著最前沿技術的發展。

在BERT時代是語言理解基準CLUE、SpuerCLUE。

隨后ChatGPT、Claude、Gemini已經刷爆了考驗各學科知識的MMLU、以及用戶用腳投票的ChatBot Arena大模型競技場。

o1/r1/QwQ類推理模型正在比拼數學（AIME、FrontierMath）、博士級別理科題（GPQA）、編程/軟件工程能力（Codeforces、SWE-bench、LiveCodeBench）。

智能體刷GAIA，似乎正在成為行業最新共識。

或者不久以后，可以期待一下AgentArena智能體競技場？

OpenManushttps://github.com/mannaandpoem/OpenManus

OWLhttps://github.com/camel-ai/owl

GAIA Bencmarkhttps://huggingface.co/spaces/gaia-benchmark/leaderboard
https://arxiv.org/abs/2311.12983

責任編輯：張燕妮來源：量子位

模型開源數據

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：狠狠操狠狠 | 亚州影院| 在线视频一区二区 | 欧美成人一区二区 | 欧美黄色网络 | 成年人黄色小视频 | 人人操日日干 | 老司机久久 | 一区二区三区视频 | 黄色大片在线 | 日韩在线免费 | www亚洲精品 | 综合自拍 | 久草福利 | 国产精品视频免费观看 | 国产999精品久久久久久 | 91免费视频 | 国产亚洲精品久久午夜玫瑰园 | 国产亚洲精品一区二区三区 | 日日操夜夜干 | 久久91 | 在线亚洲免费视频 | 99re6在线视频 | 中文字幕中文字幕 | 四虎影院欧美 | 午夜免费网站 | 国产一区免费 | 91精品国产色综合久久 | 综合久久99 | 婷婷综合色 | 久久91精品国产一区二区三区 | 91中文字幕在线 | 久久99一区二区 | 精品久久久久久亚洲精品 | 亚洲欧美视频 | 日韩福利| 国产精品国产精品 | 精品一区二区三区av | 91欧美精品成人综合在线观看 | 天天插天天舔 | 狠狠天天|

<u id="xfzsy"><form id="xfzsy"></form></u>

<button id="xfzsy"><tbody id="xfzsy"><small id="xfzsy"></small></tbody></button>

<u id="xfzsy"><form id="xfzsy"><small id="xfzsy"></small></form></u>

<abbr id="xfzsy"><style id="xfzsy"><dl id="xfzsy"></dl></style></abbr>

<output id="xfzsy"></output>

<label id="xfzsy"></label>