成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Manus引爆智能體復現潮!DeepSeek已被整合,項目擠滿開源榜,海外大V排隊求碼

人工智能 新聞
目前進度最快的兩個項目,都是在Manus發布的第0天發布了復現代碼。

Manus背后公司名為“蝴蝶效應”,真的帶火了整個智能體賽道——

開源復現潮出現了,商業閉源產品也卷起來了。

目前進度最快的兩個項目,都是在Manus發布的第0天發布了復現代碼。

除了之前介紹的OpenManus之外,另一個開源項目OWL已經把DeepSeek模型整合到多智能體協作框架中

圖片

OWL來自國內開源社區CAMEL-AI團隊。

圖片

OWL最新提交的結果在智能體測試基準GAIA的驗證集上排名平均分第3,在開源項目中排第1。

圖片

其Level 1分數81.13同樣超過了OpenAI的Deep Research,與Manus曬出的86.5已經非常接近。

圖片

雖然Level 2和Level 3分數還有差距,不過CAMEL-AI團隊的李國豪在交流群中表示,有信心刷爆。

圖片

今日的GitHub熱榜上,大多是Agent相關的項目和工具庫,老牌Agent項目MetaGPT與AutoGPT雙雙被頂到前排。

Camel-AI、OpenManus所使用的代碼庫browser-use也現身,此外金融、編程等領域的垂直智能體也備受關注。

圖片

與此同時,有人注意到Claude團隊推出的模型上下文協議MCP不是已經有小半年了么,為什么突然每個人都在討論它?

圖片

原來是每個人都想知道如何造一個Manus,而MCP是一種有效的實現途徑呀。

圖片

Manus火到海外

再來看看Manus本尊的進展。

官方社交媒體賬號被短暫禁封后現已恢復,稱將發布更多演示和更新。

圖片

Manus這個產品也成功火到了國外,方法很簡單:發邀請碼。

除了給海外大V單獨發之外,Manus聯創季逸超還與抱抱臉CEO取得聯系,公開分享100個碼,見者有份,先到先得。

圖片

兩人的交流中季逸超談到Agent能力可能更多的是對齊問題而不是基礎能力問題,基礎模型被訓練為“無論任務有多復雜,都一次性回答所有問題”,而“只需對代理軌跡進行一點后期訓練,就可以立即產生顯著的變化”。

(順便碼不用去試了,半夜就搶光了。)

圖片

海外用戶得到碼之后的劇情和這邊差不多,有不少試用之后被驚艷到的,變成“自來水”的。

圖片

并且海外用戶的付費意愿確實要強一些,畢竟比起OpenAI兩萬美元一個月的博士級智能體總是要便宜許多。

圖片

很多人拿到Manus做的第一件事,都是讓他收集自己的資料,編寫并部署個人主頁。

其中Rowan Cheung表示Manus收集到關于他的個人信息100%準確且是最新的。

圖片

類似的任務還有日本網友讓Manus部署一個介紹他自己的網站。

他分享了體驗中的一個細節:雖然Manus可以自己完成所有任務,但如果在執行過程中給出意見,它也可以靈活地改變計劃并執行,就好像真的再給人下達指令一樣。

圖片

更復雜的編程類任務還有制作一個javascript的飛行游戲。

也有人把它當做Deep Research類工具,尋找租房信息只花了不到10分鐘時間。

圖片

主要的抱怨集中在速度有些慢,以及沒有碼。

圖片

One More Thing

作為Manus出圈的副作用之一,GAIA基準測試正在成為智能體類產品必爭之地。

GAIA由Meta AI、HuggingFace和AutoGPT團隊推出,圖靈獎得主Yann LeCun和HuggingFace首席科學家Thomas Wolf參與,旨在解決現有大語言模型基準測試被快速突破、難以評估新模型的問題。

圖片

GAIA測試由450+具有明確答案的復雜問題組成,分為三個難度級別,考驗智能體系統的工具使用能力以及自主性。

Level 1:通常解題步驟不超過5步,且不需要工具,或最多使用一種工具。如簡單的信息檢索和處理,任何優秀的語言模型都可以完成。

Level 2:需要在5-10步之間完成,并且需要組合使用不同工具。如“根據附件 Excel 文件計算當地快餐連鎖店食品(不含飲料)的總銷售額”。

Level 3:面向近乎完美的通用AI助手,要求AI能夠執行任意長度的復雜動作序列,使用多種工具,并具備廣泛的世界知識和信息獲取能力。

如“在2006年1月21日NASA的每日天文圖片中有兩名宇航員,截至2023年8月,找出較小宇航員所在NASA宇航員小組中在太空停留時間最短的宇航員及其停留時間”,解答這類問題需要綜合網絡搜索、信息篩選、知識推理等多種能力。

圖片

人類在Level 2、和Level 3上的成功率分別是92%和87.3%,測試推出時最先進的語言模型GPT-4得分為9.7%和0。

此外GAIA排行榜分為測試集(Test)和驗證集(Validation)兩項,其中驗證集是公開數據,測試集為私有數據,測試集的含金量更高一些。

目前測試集排行榜中,h2oGPTe Agent(來自H20.ai)、Trase Agent(來自Trase Systems)兩個商業閉源系統的Level 2分數與Manus公布分數(70.1%)接近。

Manus團隊公布的Level 3分數為57.7%,領先幅度比較大。

圖片

ImageNet數據集與競賽開啟了深度學習浪潮之后,每個時代都有自己的當紅榜單指引著最前沿技術的發展。

在BERT時代是語言理解基準CLUE、SpuerCLUE

隨后ChatGPT、Claude、Gemini已經刷爆了考驗各學科知識的MMLU、以及用戶用腳投票的ChatBot Arena大模型競技場。

o1/r1/QwQ類推理模型正在比拼數學(AIME、FrontierMath)、博士級別理科題(GPQA)、編程/軟件工程能力(Codeforces、SWE-bench、LiveCodeBench)。

智能體刷GAIA,似乎正在成為行業最新共識。

或者不久以后,可以期待一下AgentArena智能體競技場?

OpenManushttps://github.com/mannaandpoem/OpenManus

OWLhttps://github.com/camel-ai/owl

GAIA Bencmarkhttps://huggingface.co/spaces/gaia-benchmark/leaderboard
https://arxiv.org/abs/2311.12983

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-10 00:00:00

2025-03-10 13:08:37

2025-05-26 04:00:00

2025-03-12 11:34:35

2025-03-10 08:45:00

模型AI數據

2015-06-29 14:09:01

2025-01-09 13:41:14

2025-05-06 00:35:33

2017-04-12 13:56:47

金融服務話題推廣

2025-03-28 02:00:00

2018-12-17 13:52:47

Python開源項目數據可視化

2025-03-07 08:28:56

2025-04-03 15:46:53

2025-04-14 00:22:00

2025-02-20 15:32:28

2025-03-03 11:16:18

2024-10-15 17:28:05

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 狠狠操狠狠 | 亚州影院| 在线视频一区二区 | 欧美成人一区二区 | 欧美黄色网络 | 成年人黄色小视频 | 人人操日日干 | 老司机久久 | 一区二区三区视频 | 黄色大片在线 | 日韩在线免费 | www亚洲精品 | 综合自拍 | 久草福利 | 国产精品视频免费观看 | 国产999精品久久久久久 | 91免费视频 | 国产亚洲精品久久午夜玫瑰园 | 国产亚洲精品一区二区三区 | 日日操夜夜干 | 久久91 | 在线亚洲免费视频 | 99re6在线视频 | 中文字幕中文字幕 | 四虎影院欧美 | 午夜免费网站 | 国产一区免费 | 91精品国产色综合久久 | 综合久久99 | 婷婷综合色 | 久久91精品国产一区二区三区 | 91中文字幕在线 | 久久99一区二区 | 精品久久久久久亚洲精品 | 亚洲欧美视频 | 日韩福利| 国产精品国产精品 | 精品一区二区三区av | 91欧美精品成人综合在线观看 | 天天插天天舔 | 狠狠天天|