成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

七個(gè)月翻一番!AI Agent能力飆升,METR報(bào)告揭示指數(shù)級(jí)進(jìn)化規(guī)律

人工智能 新聞
報(bào)告指出:在軟件開發(fā)、數(shù)學(xué)競賽、科學(xué)問答等任務(wù)中,agent已能完成相當(dāng)于人類花費(fèi)50–200分鐘才能完成的任務(wù),并且這種能力還在快速提升——大約每2–6個(gè)月就能翻一番。

Agent能力每7個(gè)月翻一番!

根據(jù)非營利研究機(jī)構(gòu)METR最新發(fā)布的報(bào)告,這一規(guī)律已在9項(xiàng)基準(zhǔn)測試中得到了驗(yàn)證。

這些任務(wù)涉及編程、數(shù)學(xué)、計(jì)算機(jī)使用、自動(dòng)駕駛等領(lǐng)域,表明大模型正在不斷向著高度自動(dòng)化邁進(jìn)。

圖片

報(bào)告指出:在軟件開發(fā)、數(shù)學(xué)競賽、科學(xué)問答等任務(wù)中,agent已能完成相當(dāng)于人類花費(fèi)50–200分鐘才能完成的任務(wù),并且這種能力還在快速提升——大約每2–6個(gè)月就能翻一番

在計(jì)算機(jī)操作任務(wù)中,雖然任務(wù)時(shí)長較短,但增長率與軟件開發(fā)等任務(wù)一致。

Agent在自動(dòng)駕駛?cè)蝿?wù)的性能增長速度則較慢,約20個(gè)月翻一番。

在視頻理解任務(wù)中,模型能夠在時(shí)長1小時(shí)的視頻上取得50%的成功率。

作為一家致力于研究前沿人工智能系統(tǒng)能力及其風(fēng)險(xiǎn)的研究團(tuán)隊(duì),METR此次的報(bào)告又進(jìn)一步拉近了AI自主化的時(shí)間線,快來和我們看看報(bào)告有哪些內(nèi)容吧。

Agent的摩爾定律

在此前的測試中,METR將評(píng)估范圍聚焦于軟件開發(fā)和研究類任務(wù),并發(fā)現(xiàn)AI agent的能力呈現(xiàn)出一種“摩爾定律”式的增長趨勢——平均每七個(gè)月,其可完成任務(wù)的time horizon就會(huì)翻一番。

而在最新報(bào)告中,METR將這一評(píng)估方法拓展至更廣泛的領(lǐng)域,并繼續(xù)追問一個(gè)關(guān)鍵問題:AI的能力,是否能在更廣泛的任務(wù)中,以time horizon翻倍的方式不斷躍升?

不過我們首先要問的是,什么是time horizon?

舉例來說,人類平均花30分鐘完成一個(gè)任務(wù),AI如果能在這類任務(wù)上有一半成功的概率,那就說它的time horizon是30分鐘。如果它成功率還遠(yuǎn)高于一半,例如達(dá)到80%,那說明它其實(shí)能勝任更長、更復(fù)雜的任務(wù)。

概括地說,time horizon就是agent在任務(wù)上可穩(wěn)定完成的時(shí)間跨度。

由于time horizon越長≈任務(wù)越難≈需要更多策略推理與計(jì)劃能力≈智能體的智能水平越高,所以time horizon的翻倍也被稱為agent的摩爾定律。

由于AI在不同任務(wù)中的能力差別極大,所以現(xiàn)在的問題是:這個(gè)指數(shù)級(jí)增長規(guī)律,會(huì)在其他領(lǐng)域也成立嗎?

如何跨領(lǐng)域衡量time horizon?

為了證明上面的問題,報(bào)告選取了9個(gè)benchmark,包括軟件開發(fā)(METR?HRS、SWE?bench)、計(jì)算機(jī)使用(OSWorld、WebArena)、數(shù)學(xué)競賽(Mock?AIME、MATH)、編程競賽(LiveCode-Bench)、科學(xué)問答(GPQADiamond)、視頻理解(Video?MME)、自動(dòng)駕駛(Tesla?FSD)和機(jī)器人仿真(RLBench)。

圖片

對(duì)每個(gè)benchmark,METR構(gòu)造了概率模型來估算agent的time horizon。報(bào)告采用最大似然估計(jì)(MLE)或簡化估計(jì)方法,處理不同benchmark的標(biāo)簽粒度以估算出每個(gè)領(lǐng)域AI隨時(shí)間的time horizon增長曲線。

圖片

值得注意的是,不同基準(zhǔn)測試的time horizon邊界相差超過100倍。許多推理和編碼基準(zhǔn)測試的集群時(shí)間都在1小時(shí)或以上,但在計(jì)算機(jī)的使用時(shí)間(OSWorld、WebArena)僅為約2分鐘,而這可能源于agent在使用鼠標(biāo)時(shí)發(fā)生的誤觸。

圖片

研究發(fā)現(xiàn):智能體能力按月翻番

除了我們開頭提到的智能體的能力變化,報(bào)告還測試了當(dāng)前主流的幾家大模型的能力。例如,像o3這樣的前沿模型在METR任務(wù)上的表現(xiàn)一直高于趨勢水平,翻倍時(shí)間快于7個(gè)月,在9個(gè)基準(zhǔn)測試的翻倍時(shí)間中位數(shù)約為4個(gè)月(范圍為2.5至17個(gè)月)。

圖片

最后,time horizon并非對(duì)于所有的基礎(chǔ)測試中都重要。由于有些基準(zhǔn)中難題的難度要遠(yuǎn)大于簡單題,而在另一些基準(zhǔn)中,難題卻和簡單題相差無幾。因此,對(duì)于agent來說,在這些基準(zhǔn)測試中time horizon并不能完全反映其性能。

例如,LeetCode(LiveCodeBench)和數(shù)學(xué)問題(AIME)的難度要遠(yuǎn)高于簡單問題,但長視頻上的Video-MME問題并不比短視頻上的難多少。

圖片

可見,agent的性能并不只是看“會(huì)更多技巧”,而是看是否能處理更長、更復(fù)雜任務(wù)

從幾秒、幾分鐘,到幾十分鐘、幾小時(shí),agent的可處理范圍正在跨越級(jí)別提升;如果翻倍趨勢持續(xù),未來幾年內(nèi)可能看到AI完成“幾天→幾周”的任務(wù)成為可能。

總結(jié)這一研究可以看到一個(gè)很清楚的規(guī)律:從代碼推理到數(shù)學(xué)競賽,從GUI控制到自動(dòng)駕駛,沒有一個(gè)任務(wù)域顯示出智能增長的“乏力”。在多數(shù)場景中,AI正全速向更大跨度、更深記憶、更復(fù)雜規(guī)劃演進(jìn)。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-04-30 14:12:36

AI智能體編程

2023-02-27 15:07:46

ChatGPT半導(dǎo)體

2025-07-15 08:50:00

2022-02-17 10:16:52

LPWA物聯(lián)網(wǎng)5G

2010-02-23 10:16:02

IBM Power7

2009-03-20 09:05:00

IE8瀏覽器速度

2013-07-18 10:03:06

TypeScript

2009-02-23 09:57:35

云計(jì)算占有率IDC數(shù)據(jù)

2013-12-04 16:32:15

IE11IE瀏覽器

2021-09-07 14:28:59

物聯(lián)網(wǎng)網(wǎng)絡(luò)攻擊安全

2012-02-20 09:58:41

LTEHSPA

2022-09-22 15:34:05

網(wǎng)絡(luò)安全

2022-09-22 15:31:45

網(wǎng)絡(luò)安全智能建筑

2020-08-28 12:24:26

人工智能AI零售

2023-12-21 18:01:58

Docker容器部署

2024-02-23 15:13:59

2015-02-05 11:16:07

2015-06-18 14:59:05

2023-11-01 18:01:02

改進(jìn)WakaTime編程

2009-02-16 12:20:02

面試失業(yè)職業(yè)生涯
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美精品二区 | 免费在线a | 成人做爰免费视频免费看 | 国产视频福利 | 91精品亚洲 | 日韩在线视频一区 | 插插插av | 久久在线免费视频 | 国产精品视频久久 | 欧美一级特黄视频 | 国产欧美精品一区二区 | 国产黄a三级三级看三级 | 青久久| 欧美特黄一级 | 午夜精品视频在线观看 | 日本不卡视频在线观看 | 亚洲精品一区二区三区在线 | a毛片大片| 国产精品二区一区二区aⅴ污介绍 | 成人国产精品 | 国产精品免费一区二区三区 | 亚州精品视频 | 久久精品欧美一区二区 | 一区二区精品 | 人人爽人人爽人人片av | 国产精品第二页 | 欧美激情自拍 | 午夜影片 | 成人综合婷婷国产精品久久 | 国产成人精品一区二区 | 欧美一区在线视频 | 另类小说第一草 | 欧美激情久久久 | 成人一区二区三区四区 | 欧美一级网站 | 欧美视频一区 | 日本在线免费观看视频 | 亚洲性网站 | 四虎8848精品成人免费网站 | 国产又爽又黄免费视频 | 国产一区精品视频 |