成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o1 pro挑戰美國本科生最難數學競賽,30分鐘交卷卻被「大佬」現場打臉!

人工智能 新聞
美國本科生最難數學競賽,o1 pro竟然只用半小時就全部做出來了?要知道,參賽學生的正常答題時長是6小時。不過網友們仔細看它的解題過程后發現,錯誤率似乎高達100%,12道題沒有一道完全正確?

一年一次的北美最難本科數學競賽,剛在MIT沃克紀念堂(Walker Memorial)落幕。

圖片

這場普特南數學競賽(Putnam Exam),每年匯聚了來自北美數百所高校的3500多名學生前來參賽。

既有個體,也有團體,他們需要在總時長為6小時的時間內完成作答。

在這場比賽還未開始之前,來自IBM研究員曾暗示,在公開題目發布后,會有人對大模型(AlphaProof、o1、Gemini)進行題目測試。

圖片

恰好,OpenAI最近發布了滿血版o1,以及最強o1 pro,不知它們在這場考試表現如何?

圖片

相較于o1-preview,o1數學性能提升27%,o1 pro提升36%

o1 Pro半小時做出全部賽題

令人吃驚的是,有網友把此次普特南考試的考題給了OpenAI o1 pro。

圖片

圖片

圖片

6個小時的賽題,它居然半小時就做出來了!

圖片

用時最長的一道題花了6分52秒,最短的只用了1分12秒(上下滑動查看)

詳細看了答案的網友們表示松了一口氣:o1 pro還遠未達到普特南考試的水平。

比如對于A1這道題,雖然它只用了1分鐘58秒就做了出來,總體思路也是正確的,但仍有很多錯誤。

圖片

圖片

上下滑動查看

A2也沒有完全解決。

如果在普特南答卷上寫「……等等強烈表明我是對的」,顯然你不會得分。

圖片

圖片

A3的答案,是錯誤的。

網友直接給出了正確的解題思路:可以利用鴿巢原理(抽屜原理)來證明在給定約束條件下,只存在唯一一個有效雙射函數,并由此可以推導出不存在滿足題目要求的a、b、c、d值。

圖片

圖片

上下滑動查看

對于B1,答案在n和k的形式上是正確的,但整個證明方法完全站不住腳。

圖片

圖片

上下滑動查看

總之,o1 pro似乎沒有一道題是正確的。

這個結果屬實有點驚人,因為其中一些問題難度沒有那么高,比一些AIME競賽題容易。

圖片

當然,如果從做出題目的數量來說,o1 pro的表現還是可圈可點。

目前來說,o1 pro做出的題目都是錯誤且不完整的。如果我們不以數學家的角度評判,可以認為它們很聰明。

圖片

更多評測

CodeSignal創始人Tigran Sloyan開啟了兩輪大測試,讓o1 pro分別去解決普特南數學競賽A1題,以及IMO試題。

顯然,在普特南數學競賽測試中,o1 pro成功做對了第一題。

得分+10,就已經超越了30%的參賽者。

圖片

如下,是o1 pro的全部解題過程。

圖片

圖片

而在IMO測試中,o1 pro完美解決了2006年測試集中最難的Q3題,僅僅用了6分48秒。

相較之下,在2006年全球大約500名19歲以下頂尖數學天才中,只有28人能在4個半小時內完全解出這道題。而美國隊的6名成員,卻無一人做到。

圖片

這是o1 pro的分析過程,雖然很簡潔,好像省略了很多證明步驟。

Sloyan特別要求讓其展示第4、5步的具體證明過程,o1 pro隨后擴展出的思維過程同樣令人印象深刻。

而且,他還測試其他模型(包括o1),嘗試做這道題目,卻都失敗了。

圖片

沒想到,這個結果驚動了xAI科學家Hieu Pham。

他表示,o1 pro的答案完全是胡說八道。如果在IMO競賽中提交這樣的解答,最多也只能給1分(滿分7分)。如果遇到寬松的評判員,最多給2分,不會再多了。

圖片

他接著稱,訓練數據問題是一部分,這個答案 \frac{9}{16 \sqrt{2}}很可疑。IMO的題目和解答就像是數學CoT的黃金訓練數據集,所以這些模型一會被反復訓練無數遍。

圖片

另一位研究員Jason Li測試后驚嘆道,o1似乎已經解決掉了一半的問題(60分/滿分120),這在普特南競賽的歷史排名中大約能沖進前2%的參賽者之列。

圖片

o1挑戰23年賽題

今年9月,o1發布不久后,AI評估平臺HoneyHive曾讓新模型去挑戰了23年普特南數學競賽的題目。

當時,OpenAI公開的測試結果顯示,o1的數學性能大幅超越了GPT-4o,飆升43.3%實現了質的飛升。

圖片

在這場比賽中,o1-preview拿下了79分(滿分120)位列第9,o1-mini取得了73,排名第19。

圖片

圖片

2023年普特南數學競賽問題集,如下所示:

圖片

HoneyHive的評估方法是,每個模型重復運行2次,并讓GPT-4o作為標準的判斷者,以評估模型的答案,最終再由人類專家進行驗證。

下面是讓GPT-4o承擔「評估者」角色的提示示例。

圖片

研究人員發現,第二次運行時,o1-preview得分從51提高到79,o1-mini從54提高到73,GPT-4o也從43提高到57。

在第二輪中,所有的模型都在努力給出證明,具體來說:

o1-preview完全解決了問題A1、A3、B4,部分解決了問題B2,但證明不足。

o1-mini的結果,與o1-preview類似。GPT-4o僅是完全解決了A1問題。

有趣的是,這些模型的結果雖然是正確的,但解決方案缺乏詳細的分步解釋,特別是對于證明類的問題。

比如,o1-preview和o1-mini在問題B2上都因證據不足、不夠嚴謹失掉了一些分數,盡管最終結果是正確的。

圖片

他們認為,這可能是因為AI模型在表達或訪問其內部「思維鏈」時,存在一定的局限性。

不過,IBM研究員表示,能夠拿下一定的高分,當然也存在了數據泄露的可能性。

圖片

比賽介紹

普特南數學競賽(全稱William Lowell Putnam Mathematical Competition)專為美國和加拿大的本科生設立,每年于12月舉辦一屆,今年是第85屆年賽。

每年競賽一共分為兩場考試,分別是上午A試,下午B試,各三小時。

這場比賽可以追溯到1938年,最初只是各個高校數學系之間的友好較量。如今,它已經發展成為世界上最具權威的大學數學競賽。

圖片

每年12月,數百所大學數學尖子生在為期6小時數學中展現自己的數學才華。

盡管考生需要獨立完成試卷,但比賽同時設立了團隊的環節。

普特南數學競賽不僅僅是一場知識的較量,更是一個榮譽的殿堂。排名最高的團隊的數學系可以獲得現金獎勵,學生成員還將被授予「普特南研究員」的稱號。

與此同時,比賽還設立了「The Elizabeth Lowell Putnam Prize」獎項,專為表現卓越的女性數學家頒獎。

去年第84屆比賽中,個體獲獎者5名全部來自MIT,團體獲獎者前五名也分別來自世界高校:MIT、哈佛、杜克、斯坦福、多倫多大學。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-10 07:00:00

2025-02-24 13:00:00

2024-11-25 12:50:14

2017-01-10 09:07:53

tcpdumpGET請求

2017-06-09 11:20:47

高考AI教育

2013-05-03 10:57:09

泛型泛型教程

2024-12-23 07:40:00

AI模型數學

2020-09-29 15:38:16

WeChat禁令企業

2024-12-23 10:20:00

數據訓練模型

2019-06-17 09:00:00

代碼開發工具

2020-05-22 10:20:27

Shiro架構字符串

2017-07-18 11:10:45

2018-06-20 09:23:07

AI專業科技

2013-06-28 14:30:26

棱鏡計劃棱鏡棱鏡監控項目

2024-12-06 08:36:31

2016-10-28 14:34:26

MacBook Pro蘋果升級

2024-12-30 09:30:00

OpenAIAI訓練

2022-06-07 15:39:26

安全漏洞蘋果

2017-06-07 18:40:33

PromiseJavascript前端

2024-08-27 13:43:38

Spring系統業務
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 色视频在线播放 | 午夜精品一区 | 免费在线日韩 | 天天射网站 | 亚洲成人播放器 | 国产精品一区二区三区四区 | 黑人精品欧美一区二区蜜桃 | 黄a大片 | 国产精品视频在线播放 | 久久一及片 | 日本三级日产三级国产三级 | 日韩在线一区二区三区 | 欧美性乱 | 欧美精品一区二区三区四区五区 | 日韩在线免费视频 | 日韩欧美福利视频 | 狠狠色狠狠色综合日日92 | 欧美一区二区三区视频在线 | 一区二区三区四区不卡视频 | 久久久久国产成人精品亚洲午夜 | 超碰免费在线 | 在线中文字幕第一页 | 日韩福利 | 国户精品久久久久久久久久久不卡 | 涩爱av一区二区三区 | 神马影院一区二区三区 | 午夜精品久久久久久久星辰影院 | 一区二区三区欧美在线 | 自拍偷拍中文字幕 | 一区二区三区精品 | 国产女人第一次做爰毛片 | 黄色欧美视频 | 在线播放国产一区二区三区 | 国产视频导航 | 国产精品爱久久久久久久 | 青青草网 | 中文字幕一区在线观看视频 | 欧美日韩不卡合集视频 | 日韩成人中文字幕 | 视频在线一区二区 | 久久九九99|