成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI奧數大獎出爐,英偉達摘桂冠!14B破解34題暴擊DeepSeek R1

人工智能 新聞
AIMO2最終結果出爐了!英偉達團隊NemoSkills拔得頭籌,憑借14B小模型破解了34道奧數題,完勝DeepSeek R1。

第二屆人工智能數學奧林匹克競賽(AIMO2)開獎了!

作為大賽顧問委員會的一員,陶哲軒激動地宣布了最新的結果——英偉達團隊AI成功破解了34道題(共50題)。

圖片

這一次,50道測試題保持了與AIMO1相同「數值答案」形式基礎上,進一步提升了「抗暴力破解」的難度。

這場由Kaggle主辦的AI競賽,參賽者必須使用開源LLM,在規定的有限算力條件下,用AI完成解題。

不過,目前最終成績仍處于審核階段,但現有數據已能確定大概率的勝者。

英偉達深度學習研究員分享,團隊僅用了14B小模型,就拿下了比賽第一。

圖片

讓人驚喜的是,微調后的14B竟然超越了405B的DeepSeek R1。

圖片

那么,他們是如何做到的呢?

英偉達團隊摘桂冠,14B攻克34題

AIMO2每年都會評選5名獲勝者,第一名便是英偉達團隊——NemoSkills。

圖片

為了讓大家更直觀地對這個分數有一個認識:主辦方使用了DeepSeek R1 405B在同一個測試數據上,進行了無限計算/時間的測試。

結果發現,R1-405B得分僅僅20分左右。

而英偉達微調出的14B模型,以更小參數規模,以及時間和硬件限制下拿下了驚人的34分。

這款模型便是Qwen-14B,在數百萬合成數學測試集上進行了微調,能夠支持CoT推理。

最大的亮點是高度優化的推理,僅使用了4個L4 GPU,在短短5小時內解決了50個問題中的34個。

目前,他們尚未提交解決方案,所以一些技術細節還無法窺探。

圖片

這個團隊一共由7個人組成,他們分別是Christof Henkel、Darragh Hanley、Ivan Sorokin、Benedikt Schifferer、Igor Gitman、Shubham Toshniwal和Ivan Moshkov。

圖片

除了英偉達,還有哪些團隊取得了精彩的表現?

清華拿下第二

第二名是來自清華和微軟的三人團隊,分別是清華大學研究助理教授Foxfi Ning、微軟的高級研究員Zinan Lin以及清華學子yiyouyc。

圖片

圖片 

圖片 

在公開排行榜上, 他們得分34/50(排名第一),在私有排行榜上得分31/50(排名第二)。

最為關鍵的是,他們是目前Top-5中唯一公開解決方法的參賽團隊。

本次比賽要求同時優化效率和推理性能。

目前,排名前5中,只有排名第二的參賽團隊公布了解決方法。

他們的最終解決方案由三個主要部分組成:

第一部分:推理導向訓練 —— 提升模型的推理能力  階段1 - SFT(監督微調)和階段2 - DPO(數據增強優化)使用精選數據。

第二部分:效率優化 —— 提升推理效率  選擇合適的推理引擎、權重量化、KV緩存量化。

第三部分:推理時策略 —— 改善效率與推理性能的權衡  設計有效的提示語、進行自一致性聚合、在樣本/問題級別進行早停以及調整一些啟發式超參數。

訓練腳本基于Light-R1項目。

圖片

在本地驗證方面,用了AIME 2025測試集(30個問題)以及參考集(10個問題),評估了平均樣本準確率和通過自一致性聚合的準確率,以獲得參賽團隊試驗解決方案的初步判斷。

第三名,Nokron,AI得分30,4年前加入Kggle。

圖片

第四名,S?ren Ravn Andersen,AI得分29,10年前加入Kaggle。

圖片

第五名,來自浙江杭州的匿名選手,AI得分29,6年前加入了Kaggle。

圖片

AIMO2比賽介紹

AIMO是什么來頭?

圖片

這是第二屆AIMO進步獎競賽,第一屆的AIMO進步獎于2024年7月由Project Numina團隊贏得。

這次競賽增加了獎金池,提供了全新的題目數據集,為參賽者提供更多算力支持,并更新了關于使用開源大語言模型(LLM)的規則。

數學推理能力是人工智能發展的一個關鍵里程碑,是解決許多復雜問題的基石,比如工程奇跡或復雜的金融模型。

然而,目前的人工智能在這方面的能力還比較有限。

人工智能數學奧林匹克(AIMO)是一個總金額高達1000萬美元的基金,旨在激勵開發能夠與國際數學奧林匹克(IMO)頂尖人類選手表現相當的開源AI模型。

本屆競賽包含110道數學題目,涵蓋代數、組合數學、幾何和數論。

相比第一屆,題目難度有所提升,大約達到國家奧林匹克競賽的水平。

這些題目還被設計為「對AI來說特別難」,需要較強的數學推理能力,并且已經針對當前開源大語言模型的能力進行了測試。

為了避免訓練數據與測試數據混淆的問題,競賽采用了由國際解題團隊創作的全新數學題目。

評估方式

參賽者的提交將根據預測結果與真實答案(ground-truth labels)的準確率進行評估。

簡單來說,排名依據是預測答案與真實答案之間完全匹配的比例。

在這場比賽中,每個真實答案是一個0到999之間的整數。

獎項設置

本次競賽總獎金達到了211.7152萬美元

排名前五團隊的獎金:

  • 第一名:26.2144萬美元
  • 第二名:13.1072萬美元
  • 第三名:6.5536萬美元
  • 第四名:3.2768萬美元
  • 第五名:1.6384萬美元

總體進步獎:

  • 總體進步獎將頒發給在公開和私有測試集上均獲得至少47/50分的最高排名團隊。
  • 在前五名獎金分配后,剩余的獎金將全部頒發給總體進步獎得主。
  • 如果某團隊獲得總體進步獎,獎金將至少為158.9248萬美元。
  • 如果本屆競賽沒有團隊獲得總體進步獎,剩余獎金將滾入下一屆競賽,獎金額度和分配規則保持不變。

代碼要求

提交必須通過Notebook完成。提交按鈕在提交后激活需滿足以下條件:

  • CPU Notebook運行時間 ≤ 9小時
  • GPU Notebook運行時間 ≤ 5小時
  • 禁用互聯網訪問
  • 允許使用免費且公開的外部數據,包括預訓練模型
  • 提交文件必須通過API生成
責任編輯:張燕妮 來源: 新智元
相關推薦

2025-01-26 08:40:00

AI模型預測

2021-07-20 17:52:21

谷歌Android開發者

2025-02-25 09:13:16

2025-04-27 08:54:00

英偉達開源模型

2025-02-12 12:12:59

2025-01-27 12:30:07

2025-04-03 09:42:05

2025-02-20 15:32:28

2025-05-20 09:02:00

2025-04-10 10:02:43

2025-02-05 23:21:32

2025-03-03 00:04:00

DeepSeek教程部署

2025-02-24 09:33:10

2025-02-13 12:27:13

2025-04-21 08:42:00

模型開源AI

2025-03-12 13:55:05

2025-02-18 14:59:16

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-08 11:31:17

DeepseekR1模型

2025-03-19 10:10:43

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区国产好的精 | 日日日日操 | 巨大黑人极品videos精品 | 亚洲成人精品在线观看 | 男人天堂国产 | 久久久一区二区 | 欧美国产视频 | 国产一级特黄真人毛片 | 中文字幕在线视频精品 | 日日久 | 一级片成人 | 91精品国产91久久综合桃花 | 久视频在线观看 | 蜜桃在线一区二区三区 | 国产资源一区二区三区 | 国产一级片| 欧美日韩精品久久久免费观看 | 色爱av| 日韩成人在线网址 | 国产精品视频免费观看 | 天天操 天天操 | 精品天堂| 2018中文字幕第一页 | 亚洲一区二区在线播放 | 色www精品视频在线观看 | 久久久久久色 | 国产97人人超碰caoprom | 精品欧美一区二区三区久久久 | 国产高清自拍视频在线观看 | 色综合久久久久 | 91久久网站| 欧美在线亚洲 | 亚洲精品不卡 | 波多野结衣在线观看一区二区三区 | 欧美精品一区二区三区在线四季 | 国产在线播放一区二区三区 | 亚洲综合一区二区三区 | 91在线精品秘密一区二区 | 91精品国产91久久久久久最新 | 成人羞羞国产免费视频 | 97精品久久|