成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

別讓大模型被基準評估坑了!測試集亂入預訓練,分數虛高,模型變傻

人工智能
研究發現,基準測試中相關數據意外被用于模型訓練的現象,變得越來越常見了。因為預訓練語料中包含很多公開文本資料,而評估基準也建立在這些信息之上,本來這種情況就在所難免。

“別讓大模型被基準評估給坑了”。

這是一項最新研究的題目,來自人民大學信息學院、高瓴人工智能學院和伊利諾伊大學厄巴納-香檳分校。

圖片

研究發現,基準測試中相關數據意外被用于模型訓練的現象,變得越來越常見了。

因為預訓練語料中包含很多公開文本資料,而評估基準也建立在這些信息之上,本來這種情況就在所難免。

現在隨著大模型試圖搜集更多公開數據,問題正在加重。

要知道,這種數據重疊帶來的危害非常大。

不僅會導致模型部分測試分數虛高,還會使模型泛化能力下降、不相關任務表現驟降。甚至可能讓大模型在實際應用中產生“危害”。

圖片

所以這項研究正式發出警告,并通過多項模擬測試驗證了可能誘發的實際危害,具體來看。

大模型“被漏題”很危險

研究主要通過模擬極端泄露數據的情況,來測試觀察大模型會產生的影響。

極端泄露數據的方式有四種:

  • 使用MMLU的訓練集
  • 使用MMLU以外所有測試基準的訓練集
  • 使用所有訓練集+測試prompt
  • 使用所有訓練集、測試集和測試prompt(這是最極端情況,僅為實驗模擬,正常情況下不會發生)

然后研究人員給4個大模型進行“投毒”,然后再觀察它們在不同benchmark中的表現,主要評估了在問答、推理、閱讀理解等任務中的表現。

使用的模型分別是:

  • GPT-Neo(1.3B)
  • phi-1.5(1.3B)
  • OpenLLaMA(3B)
  • LLaMA-2(7B)

同時使用LLaMA(13B/30B/65B)作為對照組。

結果發現,當大模型的預訓練數據中包含了某一個評測基準的數據,它會在這一評測基準中表現更好,但在其他不相關任務中的表現會下降。

比如使用MMLU數據集訓練后,多個大模型在MMLU測試中分數提高的同時,在常識基準HSwag、數學基準GSM8K中分數下降。

這表明大模型的泛化能力受到影響。

圖片

另一方面,還可能造成不相關測試分數虛高。

如上給大模型進行“投毒”的四個訓練集中僅包含少量中文數據,但是大模型被“投毒”后,在C3(中文基準測試)中的分數卻都變高了。

這種升高是不合理的。

圖片

這種訓練數據泄露的情況,甚至會導致模型測試分數,異常超越更大模型的表現。

比如phi-1.5(1.3B)在RACE-M和RACE-H上的表現優于LLaMA65B,后者是前者規模的50倍。

但這種分數升高沒有意義,只是作弊罷了。

圖片

更嚴重的是,哪怕是沒有被泄露數據的任務,也會受到影響,表現下降。

下表中可以看到,在代碼任務HEval中,兩個大模型都出現了分數大幅下降的情況。

圖片

同時被泄露數據后,大模型的微調提升遠不如未被泄露情況。

圖片

對于發生數據重疊/泄露的情況,本項研究分析了各種可能。

比如大模型預訓練語料和基準測試數據都會選用公開文本(網頁、論文等),所以發生重疊在所難免。

而且當前大模型評估都是在本地進行,或者是通過API調用來獲得結果。這種方式無法嚴格檢查一些不正常的數值提升。

以及當下大模型的預訓練語料都被各方視為核心機密,外界無法評估。

所以導致了大模型被意外“投毒”的情況發生。

那該如何規避這一問題呢?研究團隊也出了一些建議。

如何規避?

研究團隊給出了三點建議:

第一,實際情況中很難完全避免數據重疊,所以大模型應該采用多個基準測試進行更全面的評估。

第二,對于大模型開發者,應該要對數據進行脫敏,公開訓練語料的詳細構成。

第三,對于基準測試維護人員,應該提供基準測試數據來源,分析數據被污染的風險,使用更多樣化的提示進行多次評估。

不過團隊也表示本次研究中還存在一定局限。比如沒有對不同程度數據泄露進行系統性測試,以及沒能在預訓練中直接引入數據泄露進行模擬等。

本次研究由中國人民大學信息學院、高瓴人工智能學院和伊利諾伊大學香檳分校的多位學者共同帶來。

在研究團隊中我們發現了兩位數據挖掘領域大佬:文繼榮和韓家煒。

文繼榮教授現任中國人民大學高瓴人工智能學院院長、中國人民大學信息學院院長。主要研究方向為信息檢索、數據挖掘、機器學習、大規模神經網絡模型的訓練與應用。

韓家煒教授領銜是數據挖掘領域專家,現為伊利諾伊大學香檳分校計算機系教授,美國計算機協會院士和IEEE院士。

論文地址:https://arxiv.org/abs/2311.01964。

責任編輯:姜華 來源: 量子位
相關推薦

2024-09-29 13:10:08

2024-01-03 18:53:13

語言模型LLM

2024-11-04 00:24:56

2023-09-06 07:11:41

大模型人工智能

2023-11-03 07:47:12

機器資源大模型:

2024-04-11 14:12:53

2023-11-05 15:09:35

模型AI

2024-09-02 11:53:15

2023-05-19 07:25:34

2022-07-07 14:06:39

LiBai模型庫

2024-04-08 13:29:52

2023-05-08 15:36:50

模型AI

2024-09-27 10:31:22

2024-04-15 13:51:03

模型LLMLLMs

2024-05-27 12:45:53

2023-07-05 09:57:11

2025-04-15 08:00:00

LMArenaLlama 4大模型

2024-06-18 14:01:17

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩欧美一区二区三区免费看 | 欧美精品久久久久久久久久 | 在线三级网址 | 日批免费看 | 精品亚洲永久免费精品 | 福利视频网 | 日韩在线观看中文字幕 | 国产香蕉视频在线播放 | 日韩欧美在线一区 | 色婷婷一区 | 毛片av免费看 | 亚洲三区在线观看 | 亚洲va欧美va天堂v国产综合 | 久久精品二区亚洲w码 | 九九99精品 | 国产成人精品午夜视频免费 | 日本网站免费在线观看 | 韩国毛片视频 | 久久久精彩视频 | 亚洲在线视频 | 欧美一区二区三区视频在线 | 国产精品一区二区免费看 | 天堂成人国产精品一区 | 久久久国产一区二区三区四区小说 | 欧美在线观看网站 | 日韩一区二区三区视频 | 日韩欧美在线观看视频网站 | 久操福利 | 欧美精品二区三区 | 一区在线视频 | 国产激情在线 | 五月婷婷视频 | 97视频久久| 一区二区三区久久久 | 午夜视频在线 | 毛片一级黄色 | 国产精品精品视频一区二区三区 | 日韩在线观看 | 日韩成人高清在线 | 国产乱码精品1区2区3区 | 亚洲精品久久久久久久久久久 |