成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

抵擋AI的最后一個基準!CAIS發布50萬美元懸賞令:匯集人類頂尖專家,專攻高難度問題

人工智能
隨著AI模型的水平不斷提高,現有的基準測試也被逐一攻破。CAIS和Scale AI共同發起了屬于人類的最后一搏,懸賞50萬美元,把最高難度、只有最頂尖的人才能回答出的問題收集起來作為基準,是否能擋住AI模型的攻勢?

OpenAI最近發布的o1-preview可以說是再次震撼了整個大模型屆,在各個主流高難度基準測試中都展現出了驚人的性能,甚至能在博士級別的科學問答環節上超越人類專家。

不過,o1模型的超強實力也帶來了一個問題:現有的基準測試已經無法評估模型的能力了,需要新的、更難的基準。

最近,Scale AI與CAIS(人工智能安全中心,Center for AI Safety)計劃合作推出Humanity's Last Exam (人類的最終測驗),號稱將要構建大型語言模型屆最難的開源基準;此前CAIS發布的MMLU目前仍然是Huggingface社區中下載次數最多的基準數據集。

兩個機構總共籌集了50萬來收集「有史以來最難、最廣泛的」問題,面向所有人類專家來收集那些尖銳的問題,以將人工智能模型推向極限:前50個被選中的問題,每題將獲得5000美元;后面的500個問題,每題將獲得500美元。

圖片圖片

問題提交:https://agi.safe.ai/submit

不管是數學、天文、火箭工程還是分析哲學,不限領域,不限格式,只要夠難,只要AI回答不上來,就能拿獎!

在數據集發布后,問題被選中的提交者也將成為論文的共同作者,被接受的問題數量越多,出現的位置也會越靠前,目前麻省理工學院、加州大學伯克利分校、斯坦福大學等研究人員都已參與到獎金爭奪中!

問題提交的截止日期為2024年11月1日。

示例問題

好問題1:存在多少個正整數G2類型的Coxeter-Conway格柵?

圖片圖片

問題解讀:該問題對于人工智能模型來說足夠具有挑戰性,并且重點關注研究概念。

好問題2:假設X1,X2,...是在0和1之間獨立且均勻隨機選擇的實數。設圖片,其中k是最小的正整數,使得 Xk<Xk+1;或者如果沒有這樣的整數,則 k=∞;求S的期望值。

圖片圖片

問題解讀:盡管沒有引用研究級別的概念,但這個問題對于人工智能模型來說已經足夠具有挑戰性了。對于精確匹配格式來說,答案也并不太復雜。

壞問題1:確定最小的正實數使得存在可微函數圖片圖片滿足下列五個限制。

圖片圖片

問題解讀:這個問題太簡單了。三個模型中,有兩個都能答對。

壞問題2:我正在研究病毒顆粒(尤其是冠狀病毒)中基于系鏈蛋白的相互作用。我想進行實驗來評估各種 ORF3 和 Spike 蛋白是否能與系鏈蛋白更好地相互作用,從而增強受感染細胞中的病毒釋放。我直接使用改良的 SARS-CoV-2 毒株代替 HIVΔVpu 作為報告病毒,并使用 HeLa 細胞作為系鏈蛋白陽性毒株。感染一些測試 HeLa 細胞,孵育、固定并通過透射電子顯微鏡 (TEM) 進行分析后,拍攝了結果圖像。下列哪個選項是正確的?

圖片圖片

1. 固定甚至 TEM 技術過程可能會導致偽影,例如源自細胞質膜降解的小囊泡,如圖 i 和 ii 所示。這些偽影可能是解釋病毒活動的混雜因素。

2. 在圖像 iii 中,白色箭頭指向類似于尚未釋放的病毒顆粒的結構,有時封閉在雙膜囊泡內。

3. 圖像 i、ii 和 iii 實際上顯示了受感染細胞的不同細節:質膜外的病毒體 (i)、與質膜相關的病毒體及其附近充滿病毒的隔室 (ii) 以及細胞器內的病毒體 (iii) )。

4. 圖像 i、ii 和 iii 的分辨率不足以區分病毒顆粒和常見的細胞結構,使得很難確定這些尖頭結構確實是病毒顆粒。

問題解讀:我們不希望數據集中出現與病毒學相關的問題,盡管這是一個很好的問題。

壞問題3:「strawberry and raspberries」這個短語中有多少個 r?

圖片圖片

問題解讀:無論是知識范圍還是難度,該問題都沒有超出本科生或碩士的水平,只是AI模型不擅長此類棘手問題,對于普通人來說并不具備挑戰性。

壞問題4:計算樣本標準差。

圖片圖片

問題解讀:這是一個簡單的計算問題,在難度上并不超出本科或碩士水平;沒有對人類知識的最前沿進行測試,并且問題中還沒有指定答案中預期的精度,一般來說答案形式應該是明確的、唯一的。

問題評估過程

步驟1:寫問題

提交者首先用「英語」寫一個AI模型和普通人無法回答的、有效的、且非常困難的問題。研究人員的目標是只有非常杰出的人才能正確回答的問題,所以在提交之前,用戶需要先在各個AI模型上進行測試,確定無法回答后再提交。

步驟2:AI評估問題難度

研究人員會使用最先進的AI模型來判斷問題的難度,以過濾掉那些非常簡單的問題。

步驟3:寫下答案解釋

如果該問題對于AI模型來說非常困難,研究人員就會要求提交者為該問題寫出一個完善但簡潔的解決方案。

步驟4:同行評審

提交完問題、答案和理由后,回答將會被保存下來,再進行另一輪手動審核以保證基準的質量。

答案理由可以幫助專家和AI模型來判斷提供的答案是否正確;提交著可以隨時在dashboard上進行更改或刪除提交的問題。

步驟5:發布

如果提交的問題最終入選了數據集,在發布論文中,提交者也會獲得合作者身份,并且熱門問題作者也會在附錄中進行強調。

其中一小部分問題將會作為測試集,以測試、防止AI模型作弊。

提交指南

1. 挑戰性

問題對于非專家來說應該是困難的,并且不能通過在線搜索來回答;避免刁鉆的(trick)問題;前沿人工智能系統能夠很好地回答大師級的問題。

研究人員鼓勵具有 5 年以上技術行業工作經驗(例如 SpaceX)或者是學術培訓的博士生或以上來提出問題。

在籌備Humanity’s Last Exam時,研究人員發現本科生寫的問題對于模型來說往往太簡單了;根據經驗來說,如果隨便一個本科生都能夠理解所問的內容,那么對于前沿LLMs來說,開發出能回答這類問題的模型可能會很輕松。

2. 客觀性

答案應該被該領域的其他專家所接受,并且沒有個人品味、模糊性或主觀性。提供問題中所有必要的上下文和定義,使用標準、明確的術語和符號。

3. 原創性

問題必須是自己的作品,不能抄襲他人。

4. 保密性

問題和答案不能以任何公開渠道獲得。

5. 武器化限制

請勿提交與化學、生物、放射性、核武器、網絡武器或病毒學相關的問題。

參考資料:https://x.com/alexandr_wang/status/1835738937719140440

責任編輯:武曉燕 來源: 新智元
相關推薦

2022-08-12 12:12:17

懸賞Conti勒索軟件

2013-05-06 09:48:38

數據遷移

2021-03-15 09:50:01

漏洞網絡安全網絡攻擊

2023-01-10 23:36:22

AI律師辯護

2021-06-30 13:33:33

GitHub漏洞懸賞賞金

2015-07-03 09:45:59

2013-10-09 09:36:19

微軟IE漏洞

2013-07-16 09:38:50

2014-06-13 11:25:41

WiFi華為

2021-11-05 12:38:02

勒索組織勒索軟件攻擊

2013-06-26 09:36:46

2025-04-25 10:43:00

2024-05-17 13:32:15

2015-09-23 12:25:53

2020-04-17 10:07:06

漏洞Zoom黑客50

2024-05-08 16:50:12

2023-04-12 10:49:24

2022-05-09 10:04:02

勒索軟件黑客網絡攻擊

2012-02-10 09:34:02

2013-04-03 13:08:54

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品一区在线 | 国产精品成人一区二区三区 | 成人免费视频观看视频 | 亚洲综合一区二区三区 | 黄色欧美视频 | 国产一级电影网 | 精品久久久久久 | 欧美精品欧美精品系列 | 日韩成人在线视频 | 欧美日韩不卡合集视频 | 视频在线一区二区 | 一级午夜aaa免费看三区 | 99精品国产一区二区青青牛奶 | 色视频在线播放 | 一级黄色毛片 | 古装人性做爰av网站 | 91社区视频 | 久久亚洲国产精品 | 久久久精 | 亚洲成人一区二区 | 毛片在线免费 | 天堂免费 | 操久久久 | 午夜资源 | 欧美在线观看一区 | 欧美美女爱爱视频 | 国产一级在线 | 日本精品一区二区三区视频 | 天天天操| 91在线一区二区三区 | 黄色毛片在线观看 | 日韩性在线 | 伊人狠狠 | 国产精品中文字幕在线播放 | 99久久精品一区二区毛片吞精 | 国产精品成人免费 | 久草免费在线视频 | 亚洲欧洲成人av每日更新 | 99综合 | 成人亚洲网站 | 在线视频 中文字幕 |