AI高考大亂斗!六大頂尖模型挑戰高考數學題,結論卻引發爭議 原創
2025年高考數學考場外,當考生們還在為立體幾何的輔助線抓耳撓腮時,六大頂尖AI模型也交出了它們的答卷——在總分73的2025年新課標Ⅰ卷客觀題測試中,豆包與元寶以68分并列第一,OpenAI o3卻以34分慘遭墊底。
?
?
在單選題戰場,豆包、通義、元寶和文心曾攜手斬獲35分,DeepSeek 因兩道題失誤,單選題拿下30分,而 o3則慘遭滑鐵盧,單選題的得分僅為20分,錯了一半的題目。
?
?
而在多選題方面,豆包、DeepSeek 和元寶均表現完美,三道題全對,展現出強大的穩定性。相對來說,通義的表現雖然快速,但在關鍵時刻的判斷失誤也導致得分不理想。
?
?
在填空題的測試中,文心X1明明算出了公比2或-2,卻因畫蛇添足加了句"通常取正值",與滿分失之交臂。
?
最令人難以置信的是,o3連"送分題"都啃不下——面對等差數列的充要條件證明,它前兩步推理如行云流水,第三步卻突然開啟胡說八道模式,最終算出個選項里根本沒有的答案。
?
基于以上表現得出了豆包和元寶并列第一,OpenAI o3墊底的結論。
?
然而,這樣的結論卻引發了爭議。很多網友表示該結論缺乏公正性和客觀性。
?
總的來說,爭議點主要集中在以下幾點:
?
1. DeepSeek作為非多模態大模型,卻被當作多模態模型來測評
測試者把圖表交給DeepSeek 解讀,并指責DeepSeek 「對圖表視而不見蒙答案糊弄人」。
?
?
2. o3 網頁版存在降智情況,不符合真實表現
O3的降智導致測試結果墊底,但明明知道o3可能會觸發降智,卻僅僅在網頁端測試,這樣的答案是否具備客觀公正性?
?
3. 僅僅通過模型網頁端發送題目截圖,測評方法缺乏嚴謹性
考慮到測試的是模型的數學推理能力,很多網友認為應該使用學術界最廣泛使用的數學公式排版語言LaTeX進行測評,不應該簡單采取發送截圖的方式。
?
綜上,對于這樣的結論,大家的看法各不相同。
?
但可以肯定的是,隨著AI技術的高速發展,AI大模型的推理能力已經上升到新的高度,這些頂尖大模型的差距,也不再像幾年前那么明顯了。相信在未來,各大模型在推理能力方面的差距,將會進一步減小。
?
對于這樣的測試結果,大家怎么看?歡迎在評論區留言討論~
?
