成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o1 Pro挑戰最難本科數學考試,36分鐘16秒交卷

人工智能
普特南數學競賽(The Putnam exam),今年剛剛舉行,卷子新鮮出爐就被拿來測試AI了。從時間來看,Pro完成12道題用時36分鐘16秒,交卷速度非常快,平均每道用時2~3分鐘。

o1 Pro挑戰最難本科數學考試,人類要考6小時,AI半小時交卷!

普特南數學競賽(The Putnam exam),今年剛剛舉行,卷子新鮮出爐就被拿來測試AI了。

圖片

這個比賽有多難呢?看了一下歷年成績,只能說令人咂舌——

通常由數學專業的本科生參加,滿分120分,但平均分通常是0分或1分。
自1938年舉辦以來,截至2021年只有5人滿分。

再看一組2003年的數據,在3615名參賽學生中,有1024人(28%)得分10分或以上,42分就能進入前1%。

最終,個人得分前五名的學生獲得普特南學者稱號。而經過這種難度的“磨煉”,普特南學者中后來誕生了3位菲爾茲獎得主以及兩位諾貝爾物理學獎得主。

總之一句話,即使對美國頂尖大學的頂尖數學學生來說,這個比賽的難度都堪稱地獄級。

所以,o1 Pro具體表現如何呢??

o1 Pro挑戰最難本科數學考試

普特南數學競賽于每年12月的第一個周六舉行,總共上下兩場(每場3小時),每場6道題,每題10分,考查范圍覆蓋了本科數學中的高級概念,包括群論、集合論、圖論、格論和數論等。

由于剛考完,官方還未正式公布今年的參考答案,所以下面我們先整體感受一下。

從時間來看,Pro完成12道題用時36分鐘16秒,交卷速度非常快,平均每道用時2~3分鐘。

圖片

完成的題也很復雜,隨機挑一道康康。

圖片

比如這道A6,需要考生通過序列所生成的函數,來構建矩陣,并最終計算出這個矩陣的行列式。

這是一個典型的組合數學和線性代數的交叉問題。

最終,Pro給出了一大堆讓人頭疼的數學公式進行解答。(非專業選手兩眼一黑的程度)

圖片

為了進一步了解Pro的答題過程,我們再挑一道網友們都在cue的題——A1。

原題及Dan Hendrycks博士輸入的提示詞如下:

大意為,確定所有正整數??,使得存在正整數??,??和??滿足下列方程。

圖片
圖片

Pro的作答過程如下,并得出答案為1:

圖片

結合網友們給出的評價,均提到Pro漏掉了n=2這種情況。

圖片

總之,從大家對Pro的打分來看,其回答質量仍有待進一步完善。

由于目前還沒有標準答案,因此AI究竟做對了多少還要等等結果。

圖片

除此之外,首位全職提示詞工程師Riley Goodside也對o1 Pro模式進行了其他諸多測試。

挑戰指令跟隨的極限

比如用它設計一個7x7的網格,網格的外圍一圈填入7個字母的單詞,這些單詞代表Fantastic Four(神奇四俠)中每個成員的昵稱。每個單詞的首尾字母需要重疊,以便可以順時針方向連續閱讀,形成閉環。

PS:Fantastic Four包括漫威中的神奇先生(Mr. Fantastic)、隱形女(Invisible Woman)、霹靂火(Human Torch) 、石頭人(The Thing)。

圖片

看完這個測試,有網友借機許愿:

是否能夠根據每個玩家剩余的棋子列表,創建一個checkmate(指另一方無法解圍的情況,也稱“將死”)的棋盤。

圖片

受此啟發,Riley Goodside轉頭就測上了。

他用Pro擺出了一個“將軍”格局——每位玩家只剩下兩個兵和一個車,棋盤上其他格子都是空的。(布局是人為設計的)

圖片

就這,還是他一番努力嘗試后的結果。他一開始用了兩個兵、兩個象和一個車的棋局,但在多次嘗試中,Pro出現了錯誤,或者返回了不符合的棋局。

圖片

不過他也提到,在5分45秒的時間內,Pro生成了與答案大致一致的COT思維鏈解釋。

圖片

總之,要問定價200美元的Pro到底值不值?

還是參考奧特曼的回答,絕大多數人用免費版或20美元版就足夠了,Pro版只適合很小一部分人,他們想要大量使用,且愿意為解決真正困難的問題付更多錢。

圖片

One More Thing

不過,如果你也心癢想要玩一玩,現在有個省錢的方法。根據網友提醒——

月底買Pro,只需按比例支付了。

具體來說,如果你之前訂閱了ChatGPT Plus,如果在訂閱接近結束時升級到Pro版,就可以在剩余時間內按照200美元的百分比支付。

圖片

參考鏈接:
[1]https://x.com/DanHendrycks/status/1865858756040704335。
[2]https://x.com/goodside/status/1865844652428919121。
[3]https://x.com/goodside/status/1865629150104404150。
[4]https://x.com/goodside/status/1865514669697323290。
[5]https://x.com/goodside/status/1865090104441672183。
[6]https://x.com/SmokeAwayyy/status/1865441145788199051。

責任編輯:姜華 來源: 量子位
相關推薦

2024-12-09 13:40:00

2024-11-25 12:50:14

2015-11-23 17:34:33

秒借

2017-06-09 11:20:47

高考AI教育

2024-12-23 07:40:00

AI模型數學

2025-05-15 08:52:00

2016-10-28 14:34:26

MacBook Pro蘋果升級

2024-12-30 09:30:00

OpenAIAI訓練

2017-03-16 08:46:57

延時消息環形隊列數據結構

2018-03-12 21:31:24

區塊鏈

2017-05-18 11:11:20

Google谷歌開發者大會

2019-06-14 09:34:59

Linux 系統 數據

2025-02-07 08:33:02

2024-08-02 08:31:08

2024-11-07 15:40:00

2018-03-12 14:37:50

區塊鏈比特幣架構

2018-03-23 11:56:09

相似性推薦推薦算法推薦

2024-12-30 11:00:00

OpenAI模型論文

2024-06-06 08:50:43

2018-03-23 11:23:14

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜影院黄 | 亚洲黄色片免费观看 | 免费色网址| 国产一区二区 | 日韩欧美一区二区三区四区 | 国产精品不卡一区 | 亚洲国产精品区 | 粉色午夜视频 | 亚洲精品精品 | 伊人网站在线 | 草草在线观看 | 久久精品亚洲欧美日韩久久 | 欧美精品一区二区在线观看 | 午夜av成人 | 日韩成人在线视频 | 91国产在线播放 | 精品福利一区 | 欧美在线视频一区二区 | 免费成人高清在线视频 | 久久久免费毛片 | 成人国产精品免费观看视频 | 天天干天天玩天天操 | 中文字幕视频一区二区 | av资源网站| 国内自拍第一页 | 国产1区 | 日韩成人专区 | 99精品久久久 | 91资源在线 | 超碰在线人人 | 视频1区2区 | 国产精品久久久精品 | 亚洲成人动漫在线观看 | 风间由美一区二区三区在线观看 | xx视频在线| 久久网站黄 | 免费看的黄网站 | 久久精品国产一区二区电影 | 荷兰欧美一级毛片 | 免费看av大片 | 亚洲国产成人久久综合一区,久久久国产99 |