成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

我用GPT-4參加阿里數(shù)學(xué)競賽!官方:今年歡迎,七萬獎金憑本事拿走

人工智能
2024阿里全球數(shù)賽,在預(yù)選賽階段增設(shè)了一場AI挑戰(zhàn)賽。和參加常規(guī)賽的人類選手一樣,大模型們也要對同一套預(yù)賽試題作出解答,考核內(nèi)容的難度相當(dāng)于數(shù)學(xué)本科一年級水平,重點考察AI的數(shù)學(xué)邏輯推理與問題解決的能力。

大模型要在數(shù)學(xué)競賽上跟人類同場競技啦!

最新消息,阿里巴巴全球數(shù)學(xué)競賽,今日官宣開啟報名。依然不限年齡、國籍、職業(yè),有意思的是,這次甚至突破了碳基硅基的限制——

首次向AI開放,誠邀全球大模型參賽。

不僅如此,獲勝AI最高還可獲得10000美元(約合7.2萬元人民幣)獎金。

如此因崔斯汀的消息,當(dāng)即引起了網(wǎng)友們的關(guān)注。

我們還打聽到,國內(nèi)外有不少高校研究團(tuán)隊和大模型創(chuàng)業(yè)公司已經(jīng)表達(dá)出濃厚興趣,準(zhǔn)備參賽。

新設(shè)「AI挑戰(zhàn)賽」

具體來看規(guī)則。

2024阿里全球數(shù)賽,在預(yù)選賽階段增設(shè)了一場AI挑戰(zhàn)賽。

和參加常規(guī)賽的人類選手一樣,大模型們也要對同一套預(yù)賽試題作出解答,考核內(nèi)容的難度相當(dāng)于數(shù)學(xué)本科一年級水平,重點考察AI的數(shù)學(xué)邏輯推理與問題解決的能力。

圖片

賽制方面,數(shù)賽官網(wǎng)已在今天(3月14日)開放統(tǒng)一報名通道,大模型參賽團(tuán)隊須在報名頁勾選AI參賽選項。

完成報名后,官方會提供歷屆數(shù)賽初賽的真題和答案,讓大模型選手們可以在正式比賽前先刷刷題練練手。

4月13日-15日,官網(wǎng)將開啟初賽考試通道,參賽選手需要在此期間完成答題,并在系統(tǒng)中提交人類評委看得懂的答卷。

組委會將根據(jù)大模型在此過程中展現(xiàn)出的創(chuàng)新性、解題效率、解題過程的邏輯性等因素綜合評分,并給出具體評語。

最終得分排名前三的AI將依次獲得10000美元、5000美元和2000美元的獎金。如果所有AI均不能有效作答,則獎金會累積滾動到下屆賽事的獎金池。

值得一提的是,AI挑戰(zhàn)賽允許人類使用提示詞工程來調(diào)教大模型。

但為了確保公平競賽,避免人類替考,參賽者需要在開賽前就提交模型代碼或Prompt,以供校驗復(fù)現(xiàn)。

(這波是反向防作弊了)

大模型挑戰(zhàn)數(shù)學(xué)競賽·實測版

正式比賽尚未開始,但顯然,面對數(shù)學(xué)競賽題,AI具體會有怎樣的表現(xiàn),已經(jīng)成為這屆阿里數(shù)學(xué)競賽的關(guān)注焦點之一。

為了滿足大家伙兒(包括我們自己)的好奇心,量子位已經(jīng)率先要到了歷屆初賽的真題和參考答案,咱們就請出當(dāng)前最強(qiáng)的兩位通用大模型選手——GPT-4和Claude 3,來個真題演練,先睹為快。

Round 1:選擇題

開胃小菜。先來這道2023年阿里數(shù)學(xué)競賽初賽的一道圖論題:

圖片

還是先來看GPT-4的表現(xiàn)。

在代碼解釋器的加持之下,GPT-4成功選對了C選項,即90≤S≤100。并且,GPT-4也給出了具體的解釋:

它通過簡化模型估算出等待總時間最小可能值是81,考慮到實際線路中可能出現(xiàn)更多必須直行和左轉(zhuǎn)的情況,結(jié)合選項,S值會更接近90而小于100。

圖片

△GPT-4真的很話癆

同樣的題目拋給Claude 3:

圖片

Claude 3成功判斷了題型,但很遺憾回答錯誤。

不過如果我們稍稍給點提示,比如:是否能將小明行駛的路線看成一個100邊形,來嘗試解題。

Claude 3瞬間就get到了思路,這次計算正確:S=96,選C。

圖片

這么看來,大模型的表現(xiàn)還是可圈可點的。它們在工具加持又或者在人類點撥的情況下,能夠給出正確答案的同時,還能給出具體的解題思路。

Round 2:證明題

選擇題之外,證明題也是阿里數(shù)學(xué)競賽必出的題型。我們也挑選了一道題來進(jìn)行測試。

圖片

先說正確結(jié)論:對于第一問,答案是存在;對于第二問,答案是不存在。

來看GPT-4的答題情況:

圖片

Claude 3的答案:

圖片

這一次,打分權(quán)交給你,你覺得GPT-4和Claude 3各能得幾分?

總結(jié)一下,從測試結(jié)果來看,大模型們挑戰(zhàn)阿里數(shù)學(xué)競賽題,還是難度不小。

盡管基礎(chǔ)知識豐富,能夠初步判斷出所考題型;計算速度也飛快,但也常會出現(xiàn)胡言亂語的狀況,仍需要人類的指正和點撥。

“AI改變數(shù)學(xué)的時代正在到來”

在我們的初步測試中,大模型的解題表現(xiàn)雖然不如那些能闖入決賽的人類選手,但已經(jīng)可以想見,在這種新的碰撞中,我們可以期待看到更多AI在抽象思維、邏輯思辨和巧妙解題方面能力的展示。

對此,阿里全球數(shù)學(xué)競賽組委會也做出了闡釋:

我們希望通過引入AI參賽,可以推動人工智能在數(shù)學(xué)領(lǐng)域的研究和應(yīng)用創(chuàng)新,特別是探索AI在解決復(fù)雜數(shù)學(xué)問題方面的潛力,催生新的模型和訓(xùn)練方法。

雖然我們預(yù)計今年AI還可能不及人類選手的水平,但是未來差距無疑會不斷縮短,甚至于超越。這一旦發(fā)生,會倒逼競賽難度提升,也會讓人類選手迸發(fā)更大潛能。

此外,數(shù)學(xué)本身就是AI的基礎(chǔ),我們也會去解讀一些優(yōu)秀AI背后的數(shù)學(xué)原理,向公眾展示數(shù)學(xué)對于AI的重要性和應(yīng)用前景,希望能夠提升大眾,特別是青少年對基礎(chǔ)學(xué)科的興趣。

圖片

早在ChatGPT剛開始流行之時,以陶哲軒等人為代表的數(shù)學(xué)家們,就對大模型保持高度關(guān)注。

陶哲軒本人不僅將多種AI工具都納入了自己的工作流,還大膽預(yù)言:

當(dāng)與形式證明驗證器、互聯(lián)網(wǎng)搜索和數(shù)學(xué)符號包等工具整合時,2026年的AI,如果使用得當(dāng),將成為數(shù)學(xué)研究中值得信賴的共同作者,并且在許多其他領(lǐng)域也是如此。

圖片

而《紐約時報》更是在對多位知名數(shù)學(xué)家進(jìn)行采訪后,給出了這樣的評論:

AI改變數(shù)學(xué)的時代正在到來。

AI is coming for mathematics, too.

現(xiàn)在,阿里全球數(shù)學(xué)競賽這樣備受關(guān)注的賽事主動擁抱AI,再次印證了這一新趨勢。

背后透露出的,還有數(shù)學(xué)界面對新一輪技術(shù)變革所產(chǎn)生的期待。

對于人類選手而言,AI與數(shù)學(xué)更深入的結(jié)合趨勢已經(jīng)顯現(xiàn),這樣的比賽,可以作為新一類接觸的橋梁。

對于數(shù)學(xué)家和AI研究者們而言,這樣的平臺為AI for Math提供了一個測試研究成果的基準(zhǔn),有助于推動更多數(shù)學(xué)與AI的前沿研究。

而對于大眾,這也是進(jìn)一步理解AI能力,和數(shù)學(xué)魅力的一扇窗口。

據(jù)說,此次大賽主辦方還將聯(lián)合魔搭社區(qū),準(zhǔn)備招募更多的開發(fā)者來參與;到時候一些國內(nèi)主流的開源數(shù)學(xué)模型也出來打配合,同開發(fā)者一道與一眾數(shù)學(xué)愛好者們同場競技!

哦莫,已經(jīng)可預(yù)見的是,數(shù)學(xué)界的人機(jī)混戰(zhàn)一觸即發(fā)~

所以廣大開發(fā)者們也不要光看了,趕緊來試試,沒準(zhǔn)兒還能賺點生活費……

你說是吧~

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2023-03-28 13:01:20

GPT-4開發(fā)OpenAI

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-04-11 14:13:23

阿里AI

2025-05-30 07:40:56

2023-05-18 07:41:49

2023-08-25 13:12:59

AI開源

2023-10-08 13:11:00

訓(xùn)練數(shù)據(jù)

2023-03-15 10:35:16

GPTAI

2023-11-01 19:03:58

GPT-4

2023-10-31 15:26:02

阿里云通義千問

2024-05-21 12:23:17

2024-02-05 13:29:00

GPT-4代碼ChatGPT

2023-03-16 19:17:57

2023-05-03 20:53:48

2023-08-15 10:33:06

微軟必應(yīng)人工智能

2023-12-27 13:56:00

2023-05-27 23:43:28

GPUGPT-4算法

2024-05-09 08:33:33

2024-05-20 08:40:00

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产麻豆乱码精品一区二区三区 | 亚洲精品一区二区三区蜜桃久 | 91看片在线观看 | 精品国产1区2区3区 一区二区手机在线 | 国产一区2区 | 波多野结衣一二三区 | 日韩在线xx | 蜜桃一区二区三区 | 成人不卡一区二区 | 国产在线色| 日韩精品在线网站 | 一区二区三区在线播放视频 | 中文字幕在线网 | 69av网| 在线观看国产h | 午夜精品一区二区三区在线视频 | va精品| 成人免费视频 | 毛片在线免费 | 精品国产第一区二区三区 | 国产高清久久久 | 日韩电影一区 | 日本免费一区二区三区 | 国产视频久久 | 91久久北条麻妃一区二区三区 | 国产亚洲精品久久久久久牛牛 | 鸡毛片| 欧美自拍一区 | 亚洲www啪成人一区二区 | 午夜影院| 91xxx在线观看 | 欧美一区二区在线视频 | 黄色成人免费在线观看 | 国产精品99久久久久久大便 | 一级毛片免费视频观看 | 国产黑丝av | 免费激情av | 97国产精品视频 | 欧美日韩亚 | 日韩视频精品在线 | 日本不卡一区二区三区在线观看 |