成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型走捷徑「刷榜」?數據污染問題值得重視

人工智能 新聞
近日,我們關注到朋友圈和知乎社區對大模型「刷榜」這一問題的討論越來越多。特別是,知乎一篇帖子:如何評價天工大模型技術報告中指出很多大模型用領域內數據刷榜的現象?引起了大家的討論。

生成式 AI 元年,大家的工作節奏快了一大截。

特別是,今年大家都在努力卷大模型:最近國內外科技巨頭、創業公司都在輪番推出大模型,發布會一開,個個都是重大突破,每一家都是刷新了重要 Benchmark 榜單,要么排第一,要么第一梯隊。

在興奮于技術進展速度之快后,很多人發現似乎也有些不對味:為什么排行榜第一人人有份?這是個什么機制?

于是乎,「刷榜」這個問題也開始備受關注。

近日,我們關注到朋友圈和知乎社區對大模型「刷榜」這一問題的討論越來越多。特別是,知乎一篇帖子:如何評價天工大模型技術報告中指出很多大模型用領域內數據刷榜的現象?引起了大家的討論。

鏈接:https://www.zhihu.com/question/628957425

多家大模型刷榜機制曝光

該研究來自昆侖萬維的「天工」大模型研究團隊,他們上個月底把一份技術報告發布在了預印版論文平臺 arXiv 上。

論文鏈接:https://arxiv.org/abs/2310.19341

論文本身是在介紹 Skywork-13B,這是天工的一個大型語言模型(LLM)系列。作者引入了使用分段語料庫的兩階段訓練方法,分別針對通用訓練和特定領域的增強訓練。

和往常有關大模型的新研究一樣,作者表示在流行的測試基準上,他們的模型不僅表現出色,而且在很多中文的分支任務上取得了 state-of-art 水平(就是業內最佳)。

重點是,該報告還驗證了下很多大模型的真實效果,指出了一些其他一些國產大模型存在投機取巧的嫌疑。說的就是這個表格 8:

圖片

在這里,作者為了驗證目前業內幾個常見大模型在數學應用問題基準 GSM8K 上的過擬合程度,使用 GPT-4 生成了一些與 GSM8K 形式上相同的樣本,人工核對了正確性,并讓這些模型在生成的數據集,和 GSM8K 原本的訓練集、測試集上比了比,計算了損失。然后還有兩個指標:

圖片

Δ1 作為模型訓練期間潛在測試數據泄漏的指標,較低的值表明可能存在泄漏。沒有用測試集訓練,那數值應該為零。

圖片

Δ2 衡量數據集訓練分割的過度擬合程度。較高的 Δ2 值意味著過擬合。如果沒有用訓練集訓練過,那數值應該為零。

用簡單的話來解釋就是:如果有模型在訓練的時候,直接拿基準測試里面的「真題」和「答案」來當學習資料,想以此來刷分,那么此處就會有異常。

好的,Δ1 和 Δ2 有問題的地方,上面都貼心地以灰色突出顯示了。

網友對此評論道,終于有人把「數據集污染」這個公開的秘密說出來了。

也有網友表示,大模型的智力水平,還是要看 zero-shot 能力,現有的測試基準都做不到。

圖:截圖自知乎網友評論

在作者與讀者中互動中,作者也表示,希望「讓大家更理性看待刷榜這個事情,很多模型和 GPT4 的差距還很大」。

圖:截圖自知乎文章 https://zhuanlan.zhihu.com/p/664985891

數據污染問題值得重視

其實,這并不是一時的現象。自從有了 Benchmark,此類問題時常會有發生,就像今年 9 月份 arXiv 上一篇極具嘲諷意味的文章標題指出的一樣 Pretraining on the Test Set Is All You Need。

除此之外,最近人民大學、伊利諾伊大學香檳分校一個正式研究同樣指出了大模型評估中存在的問題。標題很扎眼《Don't Make Your LLM an Evaluation Benchmark Cheater》:

論文鏈接:https://arxiv.org/abs/2311.01964

論文指出,當前火熱的大模型領域讓人們關心基準測試的排名,但其公平性和可靠性正在受到質疑。其中主要的問題就是數據污染和泄露,這樣的問題可能會被無意識地觸發,因為我們在準備預訓練語料庫時可能不知道未來的評估數據集。例如,GPT-3 發現預訓練語料庫中包含了 Children's Book Test 數據集,LLaMA-2 的論文曾提到提取了 BoolQ 數據集中的上下文網頁內容。

數據集是需要很多人花費大量精力收集、整理和標注的,優質的數據集如果優秀到能被用于評測,那自然也有可能會被另一些人用于訓練大模型。

另一方面,在使用現有基準進行評估時,我們評測的大模型的結果大多是通過在本地服務器上運行或通過 API 調用來獲得的。在此過程中,沒有嚴格檢查任何可能導致評估績效異常提高的不當方式(例如數據污染)。

更糟糕的是,訓練語料庫的詳細組成(例如數據源)通常被視為現有大模型的核心「秘密」。這就更難去探究數據污染的問題了。

也就是說,優秀數據的數量是有限的,在很多測試集上,GPT-4 和 Llama-2 也不一定就沒問題。比如在第一篇論文中提到的 GSM8K,GPT-4 在官方 technical report 里提到過使用了它的訓練集。

你不是說數據很重要嗎,那么用「真題」刷分的大模型,性能會不會因為訓練數據更優秀而變得更好呢?答案是否定的。

研究人員實驗發現,基準泄漏會導致大模型跑出夸張的成績:例如 1.3B 的模型可以在某些任務上超越 10 倍體量的模型。但副作用是,如果我們僅使用這些泄露的數據來微調或訓練模型,這些專門應試的大模型在其他正常測試任務上的表現可能會受到不利影響。

因此作者建議,以后研究人員在評測大模型,或是研究新技術時應該:

  • 使用更多來自不同來源的基準,涵蓋基本能力(例如文本生成)和高級能力(例如復雜推理),以全面評估 LLM 的能力。
  • 在使用評估基準時,在預訓練數據和任何相關數據(例如訓練和測試集)之間執行數據凈化檢查非常重要。此外,還需要報告評估基準的污染分析結果作為參考。如有可能,建議公開預訓練數據的詳細組成。
  • 建議應采用多樣化的測試提示來減少提示敏感性的影響。在基準數據和現有預訓練語料庫之間進行污染分析,提醒任何潛在的污染風險也很有意義。為了進行評估,建議每次提交都附有一份特殊的污染分析報告。

最后想說,好在這個問題開始逐漸引起大家的關注,無論是技術報告、論文研究還是社區討論,都開始重視大模型「刷榜」的問題了。

對此,你有什么看法與有效建議呢?

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-11 08:59:21

2024-04-08 13:29:52

2013-01-10 13:27:32

iOS刷榜Android

2021-04-26 09:58:24

OneDNS

2023-11-16 12:36:00

AI數據

2024-09-12 14:46:03

2021-04-13 15:54:07

大數據人工智能技術

2021-11-02 21:24:32

人工智能走捷徑機器學習

2015-06-25 15:51:56

數據中心綠色化

2012-11-02 09:29:38

2012-08-08 09:29:41

App Store刷榜

2025-04-15 08:00:00

LMArenaLlama 4大模型

2020-09-29 09:58:30

網絡安全安防行業技術

2024-10-17 14:10:00

模型訓練

2014-02-10 09:22:41

2012-03-08 15:49:15

2013-01-31 16:28:26

App Store刷榜應用商店

2021-04-19 21:16:18

大數據大數據動向

2012-01-16 10:41:25

安全互聯網IT部門

2024-06-19 11:45:34

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美三区在线观看 | 99精品国产一区二区三区 | 怡红院怡春院一级毛片 | 国产午夜精品一区二区三区嫩草 | 国产探花在线精品一区二区 | jav成人av免费播放 | 国产欧美精品 | 91在线观看免费 | 久草视频在线看 | 欧美一级淫片007 | 国产精品91视频 | 日韩视频一区 | 日本中文字幕视频 | se婷婷| 久久国产亚洲 | 91精品国产一二三 | 好姑娘影视在线观看高清 | 久久国产区 | 天天久久| 亚洲一区二区三区高清 | 在线观看国产视频 | 亚洲三级av | 91成人免费看片 | 成人在线视频一区 | 午夜小电影 | 精品久草 | 日本中文在线 | 夜夜骑首页 | 亚洲欧美日韩精品久久亚洲区 | 国产综合精品 | 久久国产精品久久久久久久久久 | 亚洲欧美激情网 | 国产精品久久久久久久午夜 | 人人艹人人爽 | 天天拍天天操 | 精品真实国产乱文在线 | 亚洲免费大片 | 国产欧美精品一区二区三区 | 色婷婷综合网 | 精品一区精品二区 | 成人欧美一区二区三区白人 |