成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

人工智能 新聞
讓大模型考匈牙利全國高中數學期末考試,這招出自馬斯克的xAI。xAI的Grok大模型發布時,除了幾個常見的測試集,還額外做了這項測試,就是為了排除模型無意中在網絡數據見過測試題的問題。

如今很多大模型都聲稱擅長數學,誰有真才實學?誰是靠背測試題“作弊”的?

有人在今年剛剛公布題目的匈牙利全國數學期末考試上做了一把全面測試。

很多模型一下子就“現原形”了。

圖片

先看綠色部分,這些大模型在經典數學測試集GSM8k和全新卷子上取得的成績差不多,共同組成參照標準

再看紅色部分,在GSM8K上的成績顯著高于同參數規模的大模型,一到全新卷子上成績卻明顯下降,與同規模大模型差不多了。

研究者把他們歸類為“疑似或已知在GSM8k上訓練過”

網友看過這項測試后表示,是時候開始在大模型從來沒見過的題目上搞評測了。

圖片

也有人認為,這項測試+每個人實際上手使用大模型的經驗,是目前唯一靠譜的評估手段。

圖片

馬斯克Grok僅次于GPT-4,開源Llemma成績出色

測試者Keiran Paster是多倫多大學博士生、谷歌學生研究者,也是測試中Lemma大模型的作者之一。

圖片

讓大模型考匈牙利全國高中數學期末考試,這招出自馬斯克的xAI

xAI的Grok大模型發布時,除了幾個常見的測試集,還額外做了這項測試,就是為了排除模型無意中在網絡數據見過測試題的問題。

這個考試今年5月底才考完,當前大模型基本沒機會見過這套試題。

xAI發布時還公布了的GPT-3.5、GPT-4、Claude 2的成績作為比較。

圖片

在這組數據基礎上,Paster進一步測試了多個生成數學能力強的開源模型。

并把測試題目、測試腳本、各模型回答結果都開源在了Huggingface上,供大家檢驗以及進一步測試其他模型。

圖片

結果來看,GPT-4和Claude-2組成第一梯隊,在GSM8k和新卷子上成績都很高。

雖然這不代表GPT-4和Claude 2的訓練數據中完全沒有GSM8k的泄露題,但至少它倆泛化能力不錯、能做對新題,就不計較了。

接下來,馬斯克xAI的Grok-0(33B)和Grok-1(未公布參數規模)表現都不錯。

Grok-1是“未作弊組”里成績最高的,新卷子成績甚至高過Claude 2。

Grok-0在GSM8k上的表現接近GPT3.5-Turbo,新卷子上略差一些。

除了上面這幾個閉源模型,測試中其他的都是開源模型了。

Code Llama系列是Meta自己在Llama 2基礎上微調的,主打根據自然語言生成代碼,現在看來數學能力比同規模的模型稍差

圖片

在Code Llama的基礎上,多所大學和研究機構共同推出Llemma系列,并由EleutherAI開源。

團隊從科學論文、包含數學的網絡數據和數學代碼中收集了Proof-Pile-2數據集,訓練后的Llemma能使用工具和做形式定理證明,無需任何進一步的微調。

Llemma 34B在新卷子上與GPT-3.5 Turbo水平接近。

圖片

Mistral系列則是法國AI獨角獸Mistral AI訓練的,Apache2.0開源協議比Llama更寬松,成為羊駝家族之后最受開源社區歡迎的基礎模型。

圖片

“過擬合組”里的OpenChat 3.5MetaMath Mistral都是基于Mistral生態微調而來。

MetaMathMAmmoTH Code則是基于Code Llama生態。

有在實際業務中選擇開源大模型的就要小心避開這一組了,它們很有可能只是刷榜成績好看,但實際能力弱于同規模模型。

圖片

不少網友都對Paster這項試驗表示感謝,認為這正是了解模型實際情況所需要的。

圖片

也有人提出擔心:

從這一天起,所有訓練大模型的人都會加入匈牙利歷年數學考試題。

同時他認為,解決辦法可能是有一家擁有專有測試的專門大模型評估公司

圖片

另一項提議是建立一個逐年更新的測試基準,來緩和過度擬合問題。

圖片

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-04-15 08:00:00

LMArenaLlama 4大模型

2023-09-21 10:30:05

AI開源

2024-04-08 13:29:52

2013-07-30 11:24:33

SAP“簡化IT 一招

2023-11-09 15:12:00

模型數據

2021-11-22 11:30:37

JavaScript代碼瀏覽器

2023-07-22 13:09:51

模型開源

2022-05-30 08:53:47

PycharmPython

2012-02-01 15:41:42

2011-04-19 09:47:14

2023-03-03 13:14:46

2024-08-19 08:45:00

開源模型

2013-05-03 11:21:27

2022-09-06 11:53:00

開發計算

2021-06-28 20:01:07

電腦性能Windows 7

2023-08-14 13:29:37

2022-05-12 12:57:39

AI科舉模型

2013-01-10 13:27:32

iOS刷榜Android

2024-04-03 13:50:00

開源模型

2011-05-03 11:13:51

黑盒
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产清纯白嫩初高生视频在线观看 | 日韩精品不卡 | 亚洲天天干 | 亚洲瑟瑟 | 九九久久国产 | 久久中文网| 国产福利在线播放 | 亚洲一区二区三区四区五区午夜 | www.色午夜.com| 特级毛片www| 日屁视频 | 欧美一级片在线观看 | av日韩在线播放 | 日韩中文一区二区三区 | 欧美日韩一区二区三区在线观看 | 亚洲36d大奶网 | 亚洲精品久久久久久久久久久久久 | 久久一二区 | 久久精品无码一区二区三区 | 国产精品久久久久久高潮 | 欧美精品在线视频 | 欧美日韩在线视频一区 | 中文字幕一区在线 | 天天操天天舔 | 中文字幕99| 国产精品日韩一区 | 国产一级久久久久 | 91色视频在线观看 | 亚洲在线观看视频 | 免费观看一区二区三区毛片 | 精品乱子伦一区二区三区 | 国产精品1区2区3区 中文字幕一区二区三区四区 | 日本特黄a级高清免费大片 国产精品久久性 | 99热播放| 四虎永久在线精品免费一区二 | 国产高清一区二区 | 欧美日韩在线综合 | 国产免费一区二区 | 精品久久久一区二区 | 日韩精品久久久久久 | 亚洲精品888 |