成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<samp id="wcimu"></samp>

<acronym id="wcimu"><bdo id="wcimu"></bdo></acronym>

<table id="wcimu"><strike id="wcimu"></strike></table>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

我讓十個大模型又參加了完整版數學高考，第一名居然是它......

作者：數字生命卡茲克 2025-06-10 11:25:31

Qwen3，解答題全對，但是在填空題時，因為roll錯了1次對了2次，產生了失誤，丟了寶貴的1.7分，以143.3分，屈居第三。Gemini2.5 pro，解答題拉了跨，139.7分，位列第四。混元T1和文心x1，解答題失誤稍微多了一些，比Gemini 2.5 pro多錯了一點點，差了2.7分，并列屈居第五。

昨天，我不是發了幾個大模型參加數學高考的測試文章嘛。

沒想到熱度挺高，大家還挺關注的。

圖片

不過，很多評論區的小伙伴也說，根本看不出來區別。

圖片

因為缺了對AI難度最高的單選第6題，還有后面那些解答題。

那我想，不如再把模型補上，加上全缺失的智譜Z1、Kimi1.5、文心X1，（不帶Claude 4，封號斗羅，我恨他），再做一個，完整的滿血版的數學高考，讓大家最直觀的，感受一下這些模型的數學能力水平。

讓大家看看，滿分150分，每個模型到底多少分，哪個模型能拿高考數學狀元。

因為要做解答題了，和選則填空不太一樣，所以我還是單獨定了一下規則，規則如下：

1. 數學大題往往都有兩到三個小問，但是每個小問具體的賦分都不太一樣，邀請了朋友（高中老師）來估摸一下每個小問的分數，如下，都取后者：

圖片

2. 高考大題往往會按照步驟給分，但是主要我也看不懂步驟（勿噴），所以這里我們不妨對大模型嚴格一點，按照結果是否正確來給分。

3. 每道題任然使用大模型跑3次，根據正確比例給分。

4. 依然所有的文本題，都使用LaTeX編輯器轉成LaTeX文本格式，再扔給大模型進行回答。

圖片

5. 帶圖片的多模態題也加入測試，直接截圖進行作答，沒有多模態或者推理時不能傳圖的模型，取其他所有多模態模型得分的平均分。

以上。

在幾個朋友@東毅、@倒放、@云舒、@絳燁幫我kuku跑了好久之后，我們終于得出了結論。

這的，又一次干到了凌晨4點。

圖片

不過，最終的得分和結論，非常出人意料，也出乎我的意外。

先看對錯。

對的全部都是?，錯的就是?，如果是有部分對，就是??，沒有多模態的，就寫沒有多模態。

圖片

我說實話，這一片的綠，還是有點超出我的預期的，我本來以為，解答題會難住一堆大模型，沒想到，幾乎大部分都是對的，而單選題第6題，反而成了，所有大模型的噩夢。

涉及到圖片的理解，對于廣大高考學生，輕輕松松做一條輔助線就可以解決，但是所有的多模態大模型，幾乎全軍覆沒，也就openai o3 在三次回答中，對了兩次。

圖片

DeepSeek-R1-0528的表現不如其他的推理模型可能是因為他的推理思維鏈很長很長，而高考題并沒有那么復雜，所以導致，想著想著，就想歪了。。。

真的發現，有時候想的短一點，正確性可能會更高。

所有的答案，都在這了，我們是結結實實的，把每個大模型、每道題，跑了3次。。。

圖片

下次一定要抽空做個腳本，這事用人干是真的頂不住= =

那最后，終于，要公布我們的測試最終得分了。。。

圖片

這個排名，真的讓我有點意外。。。

這里我插一句，我對天發誓，這篇文章不是廣告，我也和科大訊飛還有豆包沒有任何利益關系，在測試過程中也沒有任何弄虛作假或者不遵守規則。

但是實實在在的，就是這么發生了。

在我的測試中，訊飛星火和豆包除了第6題錯，以其他題目全勝的姿態，145分的超高分，并列奪得了第一名。

而Qwen3，解答題全對，但是在填空題時，因為roll錯了1次對了2次，產生了失誤，丟了寶貴的1.7分，以143.3分，屈居第三。

Gemini2.5 pro，解答題拉了跨，139.7分，位列第四。

混元T1和文心x1，解答題失誤稍微多了一些，比Gemini 2.5 pro多錯了一點點，差了2.7分，并列屈居第五。

很有意思，太有意思了。

我其實很久沒就沒有測試測的這么開心過了。

2023年，我第一次測AI高考數學題的時候，那時候大家只有嘲諷。

強如大模型，不識一二三四五。

短短兩年，對于高考來說，幾乎都能輕松達到一個優秀學生的地步。

AI啊，進化還是太快了一點。

也許這就是我愛這份工作的原因吧。

它總能帶給我一些未知，一些驚喜，還有一年抵十年的回憶。

所以，這場AI高考，就到這里畫上句號吧。

天邊泛起肚白。

新的一天。

又到來了。

責任編輯：武曉燕來源：數字生命卡茲克

模型 Kimi1.5 Qwen3

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：成年人在线观看视频 | 视频三区| av成人在线观看 | 亚洲第一区国产精品 | 中文字幕亚洲精品 | 国产999精品久久久久久 | 久久精品a级毛片 | 丁香五月缴情综合网 | 成人精品国产免费网站 | 一区二区三区免费观看 | 成人av观看| 欧美成人a∨高清免费观看欧美日韩中 | 亚洲精品国产成人 | 黄色在线免费观看 | 国产一区二区自拍 | 亚洲区一区二 | 成人精品鲁一区一区二区 | 日韩男人天堂 | 在线国产一区二区三区 | 亚洲精选久久 | 日韩国产精品一区二区三区 | 在线国产一区 | 日韩三区在线 | 国产综合久久久久久鬼色 | 午夜三区| 免费观看一级黄色录像 | 日韩欧美一级精品久久 | 中文字幕一区二区三区精彩视频 | 国产高清免费视频 | 国产精品久久久久一区二区三区 | 91视频麻豆 | 日韩一区二区视频 | 91影院在线观看 | 欧美精品一区二区三区四区 | av一二三区| 亚洲第一av | 精品一区在线 | 天天综合永久入口 | 欧美精品一区在线 | 在线免费观看黄色 | 99精品视频在线观看 |