成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

GPT-4o 的數學又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！

發布于 2024-5-23 15:02

瀏覽

0收藏

隨著現代大語言模型（LLMs）如 OpenAI 的 ChatGPT 和 GPT-4 的出現，LLMs 展示了生成類人對話和解決復雜數學難題的非凡能力。從 Meta 在 4 月 18 日發布 Llama3-8B & 70B 開始，Qwen 開源的首個百 B 大模型 Qwen-1.5-110B，到深度求索的 MoE 模型 DeepSeek-V2，還有近幾日 OpenAI 放出的大招 GPT-4o，號稱更低的價格，更強的性能，大家都號稱自己的新模型數學能力頂呱呱，但事實真是這樣嗎？

如何透明化評測大模型的各項數學能力如今成了大家的難題，因為開源數據集往往評測角度較為局限，如常用的 GSM8k 專注日常計算，MATH 只專注于高中數學競賽。

再加上，負責大模型數學部分的產品經理往往對新訓練的模型有下面的小小期待：

??想要全面知道從小學，初中到大學每個階段模型數學表現各怎么樣
??中英文能力都要體現
??要是每道題都有知識點標簽就好了
??emmm，能不能再考下理論題，天天做應用題也不知道是不是模型基礎沒打好
??測試出的結果要魯棒，真實反映模型能力
??不想收集一大堆數據集，最好上面的內容能一次測試完（-v-）
.....

這要求都能滿足嗎？還真能！

在最新的 ACL2024 中，由上海人工智能實驗室聯合香港中文大學，北京航空航天大學和南京大學提出的 MathBench 打破了大模型數學評測不透明的現狀，且已經被 ACL2024 Findings 接收。

GPT-4o 的數學又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！-AI.x社區

Paper：
???https://arxiv.org/abs/2405.12209??
Github：
???https://github.com/open-compass/MathBench??
MathBench LeaderBoard：
???https://open-compass.github.io/MathBench??

MathBench 結構及特點

正如本文開頭所描述的，傳統評估 LLMs 數學能力的基準存在一些局限性，如單一視角的解決問題能力評估和缺乏全面的學段分級。MathBench 彌補了這些不足，提供了嚴格的數學能力評估新基準。

GPT-4o 的數學又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！-AI.x社區

MathBench 整體結構示意

相比傳統的數學評測集，MathBench 有以下特點：

多維度的知識框架：MathBench 配有一個多層次知識體系，具有從基礎計算，小學到大學的 5 階段的豐富題目，每階段都配有相應的3層細粒度知識點，一次評測即能從廣度和深度兩個維度上掌握模型能力，不留遺憾。
理論與應用兼顧：“基礎不牢，地動山搖”。MathBench 分為MathBench-A（應用能力）和MathBench-T（理論能力）兩個子集，不僅包含實際應用問題，還包含相關領域專家精心收集的基礎數學概念和推論題。
雙語支持：對于上述的所有知識層次，以及理論應用題，MathBench 都提供中英文題目，且中英題目根據語境學習現狀獨立收集，拒絕機翻，以保證評測結果的合理性。
魯棒評測：針對數學評測難以抽取答案的現狀，MathBench 中的大部分題目為經過專家標注的選擇題，保證了選項合理且有一定的干擾度，并且采用循環評測（CircularEval）作為基礎評測方式，模型需要多次答對打亂選項順序的同一題目才認為該題目被模型所掌握。
來源可靠：MathBench 中約 80% 題目為新收集的題目，來源大部分為專業考試，如高考、中考等，且經過專門校驗。

GPT-4o 的數學又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！-AI.x社區

MathBench的5階段3層知識點結構

(小學與基礎運算因有相同知識點體系而合并)

各大模型在 MathBench 上的表現

下面就讓我們看一下在 MathBench 作為數學能力照妖鏡下各模型的表現吧：

總體結果，GPT-4o 優勢明顯，國產模型緊隨其后

GPT-4o 的數學又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！-AI.x社區

MathBench理論與應用分級測評結果

（A代表應用題結果，T代表理論題目）

在應用題上：

GPT-4o領先較大，在高學段尤為明顯
部分國產模型，如 Qwen-Max-0428 和 DeepSeek-V2-API 都已經有著超越 GPT4-0125-Preview 的表現，但離最新版的 GPT-4o 仍有不小差距。通過 MathBench 的多階段細分結果可以發現，差距在較高學段，如高中和大學的題目上尤為明顯。如 GPT-4o 在大學階段的應用題目上雖然只有 54.0的CircularEval 分數，但相對 Qwen-Max-0428 已經有著接近翻倍的表現。
部分開源模型實力強勁
如 Llama3-70B-Instruct 和 Qwen1.5-110B-Chat 有著超過 GPT3.5-Turbo-0125，接近 GPT4-0125-Preview 的表現。DeepSeek-Math-7B-RL 作為 7B 量級的開源數學模型表現亮眼，在應用題目上甚至超過了 Qwen-72B-Chat。

在理論題上：

GPT-4o 各學段全面領先，展現扎實的基本數學功
作為基本數學理論能力的展現，MathBench-T 中不僅考察模型基本數學知識，還加入常用的推論，以及精心設計的干擾項來迷惑模型，所以模型難以通過簡單背誦來得到高分。GPT-4o 在此階段全面領先各 API 模型，拿下應用理論雙第一名??，證明了其不僅基礎扎實，且會熟練運用。
理解理論并不代表能夠熟練應用
如 Qwen-1.5-110B-Chat 雖與 GPT-4o 在理論階段有著相似的分數，但在應用階段兩者差距較大，可能因為在較高階段的數學知識上，運用要比理論需要更多的技巧，比如在高中和大學階段，兩者的應用分數差距越來越大，而理論上卻沒有相似的明顯差距。

模型整體分數趨勢

下面是應用階段的多個模型平均分數的整體趨勢。

可以發現，在基礎運算（Arithmetic）階段和小學數學（Primary）階段有著類似的難度，而從初中起，隨著學段的增加，模型的平均表現下降明顯：

GPT-4o 的數學又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！-AI.x社區

MathBench 應用題在各學段上的平均模型結果，呈現自然梯度趨勢

中英文雙語言結果對比

下面是眾多大語言模型在 MathBench 上的中英雙語言結果對比，按語言平均分從從小到大排序。

其中某些模型有著較為明顯的語言 Gap，如 MammoTH-13B，MetaMath-Llemma-7B 以及 Llama-3-70B-Instruct 等模型明顯偏向于英文，而 GPT-4o 和 GPT-4-0125-Preview 在中英數學上有著相近的表現。

GPT-4o 的數學又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！-AI.x社區

值得注意的是，為了 MathBench 的中英成績能代表該語言環境下的真實成績，在收集過程中并沒有將題目相互翻譯，所以在對比中僅供參考，因為題目不是中英文一一對應的關系。

標簽

已于2024-5-23 15:17:19修改

贊

收藏

回復

舉報

回復

相關推薦

GPT-4o再秀神操作，“復現”OpenAI總裁講課，網友當真了

Crystalcxt ? 2889瀏覽 ? 0回復
GPT-4o：實現跨越文本與視覺的智能交互

51CTO內容精選 ? 4311瀏覽 ? 0回復
Sam Altman：GPT-4o幕后揭秘，GPT-5會很特別

Aceryt ? 2790瀏覽 ? 0回復
牽手GPT-4o后能力簡直王炸！奧特曼也來build現場了！

51CTO技術棧 ? 3093瀏覽 ? 0回復
GPT-4o做Code Review可行嗎？

51CTO技術棧 ? 3703瀏覽 ? 0回復
?天下武功唯快不破，GPT-4o真的牛

ermulong ? 2346瀏覽 ? 0回復
現在，所有人都能免費用GPT-4o了！

duhorse ? 4935瀏覽 ? 0回復
GPT-4o與SQL：大模型改變自身架構的能力有多強？

51CTO技術棧 ? 2466瀏覽 ? 0回復
GPT-4o背后可能的語音技術

魚蟲子 ? 3407瀏覽 ? 0回復
GPT-4o不香了

Crystalcxt ? 3324瀏覽 ? 0回復
GPT-4o 到底有多強？模型圖文多模態能力評測結果全公開

戀戀青鳥 ? 8678瀏覽 ? 0回復
13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了

wsp_ping ? 4125瀏覽 ? 0回復
終于來了，OpenAI測試GPT-4o高級語音模式！

Aceryt ? 2510瀏覽 ? 0回復
開發者終于可以定制自己的GPT-4o了！

51CTO技術棧 ? 2650瀏覽 ? 0回復
小模型界o1來了：微軟推出Phi-4，數學推理能力太逆天！14B模型擊敗GPT-4o！還印證了AI墻的一個重要推斷

51CTO技術棧 ? 2454瀏覽 ? 0回復
微軟發布Phi-4，最強小模型！參數極小、超GPT-4o

Aceryt ? 2227瀏覽 ? 0回復
微軟開源最強小模型Phi-4，超GPT-4o、可商用

Aceryt ? 2386瀏覽 ? 0回復
清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理

Aceryt ? 2549瀏覽 ? 0回復
閑得沒事，猜猜GPT-4o如何對圖像編碼

魯班模錘1 ? 2035瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

可擴展性長文本評測集——Ada-LEval 詳細解讀 2024-11-12 14:54:43發布
深度探索：LLaMa-3 網絡安全能力全解析 2024-08-01 14:12:48發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

下一篇： ChemBench：大語言模型化學能力評測數據集

社區精華內容

目錄

主站蜘蛛池模板：欧美二区三区 | 伊人网综合 | 久久精品视频在线观看 | 久久涩涩 | 国产不卡一区 | 国产一区在线免费观看视频 | www.色综合| 精品久久网 | 欧美日韩亚洲国产 | 黄色大片观看 | 久草a√ | 中文字幕第一页在线 | 亚洲97| 日韩精品免费在线观看 | 岛国av在线免费观看 | 欧美激情视频一区二区三区免费 | 国产精品爱久久久久久久 | 亚洲精品一区二区在线观看 | 国产精品欧美一区二区三区不卡 | 亚洲精品1区 | 精品国产不卡一区二区三区 | 亚洲视频在线一区 | 亚洲综合久久精品 | 99热精品6| 国产原创在线观看 | 久久久不卡网国产精品一区 | 久久久美女 | 亚洲一区二区三区桃乃木香奈 | 国产激情片在线观看 | 日韩欧美在线视频 | 五月婷婷在线播放 | 久久久妇女国产精品影视 | 精品欧美一区二区三区 | 精品一区二区在线观看 | 一区二区免费 | 草比av| 中文字幕日韩一区 | 国产乱码精品一品二品 | 亚洲电影第1页 | 日韩欧美视频在线 | 欧美一级做a爰片免费视频国产美女特级嫩嫩嫩bbb片 |