成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

限定120分鐘科研挑戰,o1和Claude表現超越人類

人工智能
前2小時,基于Claude 3.5 Sonnet和o1-preview構建的Agent(智能體)表現遠超人類。但拐點過后,AI能力增速(在8小時內)卻始終追不上人類。

2小時內,Claude和o1就能超過人類專家平均科研水平。

甚至AI還會偷摸兒“作弊”(doge)。事情是這樣的——

人類 VS AI科研能力大比拼,也有新的評估基準了。

代號“RE-Bench”,由非營利研究機構METR推出,目的是搞清:當前AI智能體在自動化科研方面有多接近人類專家水平。

注意看,一聲令下之后,AI和50多位人類專家開始暗自較勁:

前2小時,基于Claude 3.5 Sonnet和o1-preview構建的Agent(智能體)表現遠超人類。

但拐點過后,AI能力增速(在8小時內)卻始終追不上人類。

圖片

時間拉得更長(至32小時)之后,研究得出結論,目前AI智能體更適合并行處理大量獨立短實驗。

圖片

看完上述結果,知名預測師Eli Lifland認為這“顯著縮短”了他關于AGI的時間表(連續兩年將2027年作為中位數),由此也在Reddit引起熱議。

圖片

??上也有人表示,AI自動搞科研可能對推動爆炸性經濟增長至關重要。

圖片

甚至有人腦洞大開,開始美滋滋暢想躺著賺錢的生活(doge):

以后AI智能體來做科研,然后雇一群人類寫代碼……

圖片

AI更適合大量并行短時間任務,長期科研還得靠人類

在RE-Bench上,研究對比了基于大語言模型構建的Agent(目前主要公布了Claude 3.5 Sonnet、o1-preview)和50+人類專家的科研能力。

值得注意的是,這些專家都有強大機器學習背景,其中很多人在頂級行業實驗室或機器學習博士項目中工作。

圖片

一番PK后,研究得出了以下主要結論:

  • 2小時內,Claude和o1表現遠超人類專家。但隨著時間增加,人類專家的能力提升更顯著;
  • 在提交新解決方案的速度上,AI是人類專家的十倍以上,且偶爾能找到非常成功的解決方案;
  • 在編寫高效GPU內核方面,AI表現超越所有人類;
  • AI的運行成本遠低于人類專家;
  • ……

總之一句話,不僅AI和人類各有所長,且不同AI都有自己最佳的科研節奏。

人類更適應更復雜、更長時間的科研,AI更適應大量并行短任務。

圖片

回到研究起點,METR之所以提出RE-Bench主要是發現:雖然很多政府和公司都在強調,AI智能體能否自動研發是一項關鍵能力。但問題是:

現有的評估往往側重于短期、狹窄的任務,并且缺乏與人類專家的直接比較。

圖片

因此,RE-Bench想做的事兒,就是全面評估AI科研所需的技能。本次研究一共提出了7項:

  • 高效編程:特別是在優化算法和內核函數(如GPU內核)方面。
  • 機器學習理論與實踐:熟悉機器學習模型的訓練、調優和評估,包括神經網絡架構、超參數選擇和性能優化;
  • 數據處理與分析。
  • 創新思維:能夠在面對復雜問題時提出新的方法和策略,以及跨領域思考。
  • 技術設計:能夠設計和實現復雜的系統和解決方案,包括軟件架構和研究流程。
  • 問題解決。
  • 自動化與工具開發:能夠開發和使用自動化工具來加速研究流程。

這些任務被設計在≤8小時內,以便人類專家可以使用合理的計算資源完成,從而實現人類與AI的直接比較。

圖片

而且主辦方特意提醒,要想獲得高分,就必須最大化利用計算資源來完成這些復雜任務。

圖片

通常來說,RE-Bench的運行機制如下:

首先,7項任務都是一個獨立的評估環境,各自都有一個清晰的目標,比如優化一個GPU內核或者調整一個機器學習模型的超參數。

為了確保任務的可比性,每個環境都提供了一個參考解決方案,這個解決方案是有效的,但效率較低,為Agent和人類專家提供了一個基準點。

AI和人類專家都可以訪問這些環境,并且都有權限使用所需的計算資源,如GPU。

然后,AI通過自然語言處理和編程能力來執行任務,而人類專家則通過編碼和實驗來完成任務。

執行結束后,每個環境都有一個評分函數,用于衡量Agent或人類專家提交的解決方案的效果。

當然,評分函數會根據解決方案的性能給出一個數值得分,這個得分隨后會被歸一化,以便于在不同環境之間進行比較。

圖片

需要注意,過程中還涉及時間預算分配(time budget)。實際情況是,人類專家通常被分配8小時來完成任務,而AI則根據實驗設計在不同的時間限制下進行評估。

舉個例子,對AI來說,8小時的預算可以用于一次8小時的嘗試,也可以分成16次、每次30分鐘的嘗試。

最后,由于在任務執行過程中,研究會收集AI和人類專家的解決方案日志,以及它們的得分記錄。因此最終將根據這些記錄來評估不同參與者的進步和表現。

實驗結果顯示,在2小時內,基于Claude 3.5 Sonnet和o1-preview構建的智能體表現遠超人類。

圖片

更具體來看,如果不取多次運行中的最佳結果(每個單獨繪制8小時運行),AI最初比人類進步更快,但提高分數的速度較慢。

圖片

擴大時間線來看,整體上人類專家在較少的長時間嘗試中表現更佳,而AI則從大量并行、獨立的短時間嘗試中受益。

圖片

令人印象深刻的是,盡管大多數AI只能輕微改進參考解決方案,但一個o1-preview智能體在優化Triton內核運行時間的任務中超越了人類專家的最佳解決方案。

圖片

與此同時,評估過程中甚至發現了AI存在“作弊”行為。例如,o1-preview智能體在應該減少訓練腳本運行時間的任務中,編寫了只是復制最終輸出的代碼。

圖片

來自非營利研究機構METR

以上這項新的基準出自METR,作為一家非營利研究機構,他們主要通過實證測試評估可能對社會造成災難性危害的AI系統。

圖片

目前,RE-Bench只包含7項任務,基準的劣勢也很明顯:

圖片

而且還伴隨著一個老生常談的問題:

一旦7項任務公開,如何防止基準測試數據污染問題?

圖片

對此,METR特別提出了幾項措施,來避免將這些任務包含在LLM訓練數據中,并防止過擬合。

  • 用戶應避免發布未受保護的解決方案,以減少過擬合的風險。
  • 用戶不應將評估材料提供給可能用于訓練的API或服務。
  • 評估材料不應用于訓練或提高前沿模型的能力,除非是為了開發或實施危險能力評估。

圖片

更多細節歡迎查閱原論文。

論文:https://metr.org/AI_R_D_Evaluation_Report.pdf。
博客:https://metr.org/blog/2024-11-22-evaluating-r-d-capabilities-of-llms/。
GitHub:https://github.com/METR/ai-rd-tasks/tree/main。
實驗詳細記錄:https://transcripts.metr.org/。

參考鏈接:
[1]https://twitter.com/METR_Evals/status/1860061711849652378。
[2]https://www.reddit.com/r/singularity/comments/1gxzslg/top_forecaster_significantly_shortens_his/。

責任編輯:姜華 來源: 量子位
相關推薦

2024-12-10 07:00:00

2024-12-09 13:40:00

2025-02-10 08:37:04

2024-12-26 17:13:17

AI模型訓練

2017-06-09 11:20:47

高考AI教育

2023-09-26 22:12:13

數據倉庫Doris

2024-10-23 09:20:00

2025-02-07 08:33:02

2025-02-03 14:17:27

2024-10-30 14:25:00

GitHub模型

2015-11-23 17:34:33

秒借

2018-03-12 21:31:24

區塊鏈

2017-03-16 08:46:57

延時消息環形隊列數據結構

2024-09-18 08:40:00

智能模型AI

2025-02-19 15:40:00

OpenAI編程模型

2019-06-14 09:34:59

Linux 系統 數據

2017-05-18 11:11:20

Google谷歌開發者大會

2024-11-07 15:40:00

2018-03-12 14:37:50

區塊鏈比特幣架構

2018-03-23 11:56:09

相似性推薦推薦算法推薦
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区视频在线 | 国产激情精品视频 | 91精品久久久久久久久久 | 成人免费视频观看视频 | 亚洲一区二区三区免费视频 | 久久99精品视频 | 日韩国产在线观看 | av激情在线 | 日韩国产一区二区三区 | 欧美一级片在线观看 | 国产精品一区二区福利视频 | 在线成人福利 | 久久久噜噜噜www成人网 | 日韩视频免费在线 | 国产日韩精品视频 | 国产精品久久久久久亚洲调教 | 婷婷综合色 | 狠狠干天天干 | 免费视频一区二区三区在线观看 | 91av导航| 一二三四在线视频观看社区 | 国产探花在线精品一区二区 | 久久99久久久久 | 成人免费淫片aa视频免费 | 亚洲精品日本 | 日韩欧美二区 | 精品一区二区三区免费视频 | 久久精品视频免费看 | 日韩波多野结衣 | 国内精品久久久久久 | 91精品久久久久久久久 | 亚洲成av人片在线观看无码 | 亚洲精品一区二区三区中文字幕 | va精品 | 日韩精品一区二区久久 | 久久久久国产一区二区三区四区 | 国产精品久久国产精品 | 91久久视频| 色悠悠久| www.久久| 精品在线一区 |