成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

看好了,這才是7家大模型做高考數(shù)學(xué)題的真實(shí)分?jǐn)?shù)

發(fā)布于 2025-6-11 07:44
瀏覽
0收藏

這兩天,很多媒體都在寫(xiě)用AI考高考題的內(nèi)容。

我本來(lái)真的沒(méi)打算卷這個(gè)選題,因?yàn)橹来蠹铱隙ǘ紩?huì)寫(xiě),都會(huì)卷,我也想休息休息,真的就不打算寫(xiě)了。

但是吧,用AI測(cè)語(yǔ)文考試還沒(méi)啥,但是看了一些用AI做數(shù)學(xué)考試的文章,真的給我看的一臉地鐵老頭表情包,就,那個(gè)測(cè)試方法,也特么太扯淡了。

我覺(jué)得既然是考試,那就公平公正的去測(cè)試?

當(dāng)然,你要是玩整活,那就另談了。

結(jié)果最后得出一些不太靠譜的結(jié)論,我覺(jué)得還是蠻誤導(dǎo)大家的。

客觀、公平、公正,是我覺(jué)得最核心的標(biāo)準(zhǔn)。

所以我覺(jué)得,我想按照我的玩法,再嚴(yán)謹(jǐn)一點(diǎn)的測(cè)一下大模純數(shù)學(xué)能力型高考,給大家看一下,真實(shí)客觀的評(píng)分。

測(cè)試試卷為2025年數(shù)學(xué)全國(guó)一卷。

看好了,這才是7家大模型做高考數(shù)學(xué)題的真實(shí)分?jǐn)?shù)-AI.x社區(qū)

測(cè)試規(guī)則如下:

1. 不考解答題(因?yàn)榻o我標(biāo)準(zhǔn)答案我也看不懂,不知道咋給分。。)

2. 所有的題目截圖全部使用LaTeX編輯器轉(zhuǎn)成LaTeX文本格式,再扔給大模型進(jìn)行回答。

看好了,這才是7家大模型做高考數(shù)學(xué)題的真實(shí)分?jǐn)?shù)-AI.x社區(qū)

LaTeX是學(xué)術(shù)界最廣泛使用的數(shù)學(xué)公式排版語(yǔ)言,能最精確地表達(dá)數(shù)學(xué)符號(hào),我們考的是模型的數(shù)學(xué)能力,不是考模型的多模態(tài)識(shí)圖能力,比如DeepSeek根本就沒(méi)多模態(tài),用的是OCR提取文本,很可能識(shí)別錯(cuò)誤,所以截圖上傳不公平,一律轉(zhuǎn)化成LaTeX格式再進(jìn)行統(tǒng)一測(cè)試。

3. 剔除掉單選題第6題,因?yàn)檫@是單選、多選、填空題中唯一有圖表的,轉(zhuǎn)成文字可能會(huì)有理解歧義,同時(shí)就一題,影響不大,直接剔除。

看好了,這才是7家大模型做高考數(shù)學(xué)題的真實(shí)分?jǐn)?shù)-AI.x社區(qū)

4. 單題計(jì)分方法也依照高考判分原則:?jiǎn)芜x題7道,每道5分,選項(xiàng)正確計(jì)分,錯(cuò)誤不得分;多選題3道,每道6分,全對(duì)計(jì)6分,漏選按正確答案數(shù)量計(jì)分,如答案為ABCD,漏選其一扣1.5分,錯(cuò)選不得分;填空題3道,每道5分,填空正確計(jì)分,錯(cuò)誤不得分。

5. 每道題都會(huì)使用大模型跑3遍,根據(jù)正確比例進(jìn)行分配,最大程度減少幻覺(jué)。比如OpenAI o3模型,做單選題第7題,對(duì)2次,錯(cuò)1次,則實(shí)際得分為5*0.66=3.3分。

6. 只開(kāi)推理、不使用Prompt引導(dǎo)、不開(kāi)聯(lián)網(wǎng)、不允許寫(xiě)代碼在沙盒進(jìn)行計(jì)算,比如o3,我直接把這幾個(gè)功能關(guān)掉了。

看好了,這才是7家大模型做高考數(shù)學(xué)題的真實(shí)分?jǐn)?shù)-AI.x社區(qū)

以上,就是全部規(guī)則了。

接下來(lái),請(qǐng)我們的模型考生入場(chǎng)。

測(cè)試模型為OpenAI o3、Gemini 2.5 pro、DeepSeek R1、豆包(1.5-thinking-pro)、元寶(混元T1)、千問(wèn)3(235B)、訊飛星火X1,均為推理模型。

在晚上凌晨2點(diǎn)開(kāi)始測(cè)試,因?yàn)楦鉇PI寫(xiě)腳本反而可能更麻煩,所以直接搞了個(gè)表格,復(fù)制粘貼測(cè)了,以至于喊了我的幾個(gè)好朋友@卡爾的AI沃茲、@Max、@貓先生 一起測(cè),硬生生測(cè)到凌晨4點(diǎn)。

看好了,這才是7家大模型做高考數(shù)學(xué)題的真實(shí)分?jǐn)?shù)-AI.x社區(qū)

7道單選題、3道多選題、3道填空題,總分一共68分。

我們得出了,我認(rèn)為,非常公平客觀的,每個(gè)模型的考試結(jié)果。

沒(méi)有收任何家錢(qián),也沒(méi)有任何利益關(guān)系,全部客觀公正。

如下圖:

看好了,這才是7家大模型做高考數(shù)學(xué)題的真實(shí)分?jǐn)?shù)-AI.x社區(qū)

看看每一題的具體選項(xiàng)。

看好了,這才是7家大模型做高考數(shù)學(xué)題的真實(shí)分?jǐn)?shù)-AI.x社區(qū)

第9題是個(gè)非常神奇的題目,是個(gè)多選題,只有Gemini 2.5 Pro每次都對(duì)了,其他的所有大模型,幾乎全都有問(wèn)題,D選項(xiàng)倒是全都答出來(lái)了,但是缺了B。

而那個(gè)DeepSeek第11道題錯(cuò)的那道題,其實(shí)并不是真做錯(cuò)了,明明做對(duì)了,但是非要作死的瞎答,比如11題多選題,DeepSeek R1錯(cuò)了一道題。

但是我給你看看,它其實(shí)是這么錯(cuò)的。

看好了,這才是7家大模型做高考數(shù)學(xué)題的真實(shí)分?jǐn)?shù)-AI.x社區(qū)

真的,太抽象了。。。

再看看,最終分?jǐn)?shù)。

看好了,這才是7家大模型做高考數(shù)學(xué)題的真實(shí)分?jǐn)?shù)-AI.x社區(qū)

Gemini確實(shí)非常強(qiáng),在整個(gè)邏輯上,沒(méi)有一題是錯(cuò)的。

而豆包、混元、星火位列第二梯隊(duì),在第9題上漏了一個(gè)選項(xiàng),并列屈居第二。

DeepSeek半對(duì)半錯(cuò)了一個(gè)多選題,丟了0.7分,排名第五。

而Qwen3和OpenAI o3因?yàn)閮蓚€(gè)都錯(cuò)了1次填空題,只能被迫墊底。。

通過(guò)我的測(cè)試,我相信,大家應(yīng)該對(duì)于模型的數(shù)學(xué)能力,有一些了解了。

其實(shí),根本拉不開(kāi)差距,出錯(cuò)一般也都是小小的幻覺(jué)。

高考對(duì)于現(xiàn)在絕大多數(shù)的推理大模型來(lái)說(shuō),其實(shí)真的就是,沒(méi)有特別大的難度,跟2023年的時(shí)候,真的是天壤之別。

很多測(cè)出來(lái)測(cè)的非常離譜的文章,其實(shí)最后答案錯(cuò)了,跟推理模型本身沒(méi)有半毛錢(qián)關(guān)系,而是你把截圖扔過(guò)去,各種符號(hào)啥的識(shí)別錯(cuò)誤。

比如則 \complement_{U} A,硬生生識(shí)別成了CuA。

看好了,這才是7家大模型做高考數(shù)學(xué)題的真實(shí)分?jǐn)?shù)-AI.x社區(qū)

所以,折騰到現(xiàn)在,這場(chǎng)公平、客觀的AI數(shù)學(xué)高考終于落幕了。

在打完最后一個(gè)結(jié)果的時(shí)候,我松了一口氣。

其實(shí)吧,我們不睡覺(jué),熬夜折騰這么久,想得出的并不僅僅是一個(gè)簡(jiǎn)單的分?jǐn)?shù)。

而是我們我們想知道,怎么才算是一場(chǎng)合格的AI考試。

規(guī)則公正,流程嚴(yán)謹(jǐn),技術(shù)中立,少一點(diǎn)博眼球的夸張,多一點(diǎn)對(duì)真相的執(zhí)著。

我始終相信,無(wú)論是對(duì)技術(shù),還是對(duì)人生,嚴(yán)謹(jǐn)總能讓我們更接近真實(shí)。

而真實(shí),總能讓我們更加自由。

睡覺(jué)。

起床以后,一定又是美好的一天。

本文轉(zhuǎn)載自???數(shù)字生命卡茲克???,作者:數(shù)字生命卡茲克

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产精品久久av | 中文字幕av免费 | 精品真实国产乱文在线 | 亚洲精品乱码久久久久久黑人 | 久久久久久久国产精品影院 | 亚洲精品视频在线观看视频 | 人人人人人爽 | 欧美一区二区三区在线观看 | 精品一区二区三 | 国产精品久久 | 久久er99热精品一区二区 | 久久久www成人免费精品 | 美女精品一区 | 一级毛片观看 | 久久福利电影 | 色婷婷久久久久swag精品 | 欧美人人 | 精品国产免费一区二区三区演员表 | 99亚洲| 狠狠躁夜夜躁人人爽天天高潮 | 日韩高清中文字幕 | 日韩欧美国产精品一区二区三区 | 99久久精品国产一区二区三区 | 久久视频免费看 | 国产欧美精品在线 | 日韩av成人在线 | 欧美一区二区三区视频在线 | 欧美日韩中文字幕在线 | 欧美日韩一区二区电影 | 欧美在线视频不卡 | 99久久精品免费看国产免费软件 | 九九热精品免费 | 日韩av免费看 | 在线国产一区二区 | 精品一区二区在线看 | 福利影院在线看 | www亚洲成人 | 中文字幕亚洲欧美 | 成人免费在线播放 | 欧美成人激情视频 | 久久区二区 |