成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<output id="wefma"><bdo id="wefma"></bdo></output>

<button id="wefma"><form id="wefma"></form></button>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

13B模型全方位碾壓GPT-4？這背后有什么貓膩

作者：機器之心 2023-11-18 09:37:49

人工智能新聞

如果你細細查看圖中的模型，發現只要帶有「rephraser」這個單詞，模型性能都比較高。這背后到底有何貓膩？原來是數據污染了，即測試集信息在訓練集中遭到泄漏，而且這種污染還不易被檢測到。盡管這一問題非常關鍵，但理解和檢測污染仍然是一個開放且具有挑戰性的難題。

一個參數量為 13B 的模型竟然打敗了頂流 GPT-4？就像下圖所展示的，并且為了確保結果的有效性，這項測試還遵循了 OpenAI 的數據去污方法，更關鍵的是沒有發現數據污染的證據。

如果你細細查看圖中的模型，發現只要帶有「rephraser」這個單詞，模型性能都比較高。

這背后到底有何貓膩？原來是數據污染了，即測試集信息在訓練集中遭到泄漏，而且這種污染還不易被檢測到。盡管這一問題非常關鍵，但理解和檢測污染仍然是一個開放且具有挑戰性的難題。

現階段，去污最常用的方法是 n-gram 重疊和嵌入相似性搜索：N-gram 重疊依賴于字符串匹配來檢測污染，是 GPT-4、PaLM 和 Llama-2 等模型常用方法；嵌入相似性搜索使用預訓練模型（例如 BERT）的嵌入來查找相似且可能受到污染的示例。

然而，來自 UC 伯克利、上海交通大學的研究表明測試數據的簡單變化（例如，改寫、翻譯）就可以輕松繞過現有的檢測方法。他們并將測試用例的此類變體稱為「改寫樣本（Rephrased Samples）」。

下面演示了 MMLU 基準測試中的改寫樣本。結果證明，如果訓練集中包含此類樣本，13B 模型可以達到極高的性能 (MMLU 85.9)。不幸的是，現有的檢測方法（例如，n-gram 重疊、嵌入相似性）無法檢測到這種污染。比如嵌入相似性方法很難將改寫的問題與同一主題中的其他問題區分開來。

通過類似的改寫技術，本文在廣泛使用的編碼和數學基準測試中觀察到一致的結果，例如 HumanEval 和 GSM-8K（如文章開頭圖中所示）。因此，能夠檢測此類改寫樣本變得至關重要。

接下來，我們看看這項研究是如何進行的。

論文地址：https://arxiv.org/pdf/2311.04850.pdf
項目地址：https://github.com/lm-sys/llm-decontaminator#detect

論文介紹

文中表示，大模型（LLM）在快速發展的同時，關于測試集污染的問題被越來越多的重視起來，很多人對公共基準的可信度表示擔憂。

為了解決這一問題，有些人采用傳統的去污方法如字符串匹配（例如，n-gram 重疊）來刪除基準數據，但這些操作還遠遠不夠，因為對測試數據進行一些簡單的更改（例如，改寫、翻譯）就可以輕松繞過這些凈化措施。

更重要的是，如果不消除測試數據的這種更改，13B 模型很容易過度擬合測試基準并實現與 GPT-4 相當的性能。他們在 MMLU、GSK8k 和 HumanEval 等基準測試中驗證了這些觀察結果。

同時為了解決這些日益增長的風險，本文還提出了一種更為強大的基于 LLM 的去污方法 LLM decontaminator，并將其應用于流行的預訓練和微調數據集，結果表明，本文提出的 LLM 方法在刪除改寫樣本方面明顯優于現有方法。

這一做法也揭露了一些先前未知的測試重疊（test overlap）。例如，在 RedPajamaData-1T 和 StarCoder-Data 等預訓練集中，本文發現 HumanEval 基準有 8-18% 重疊。此外，本文還在 GPT-3.5/4 生成的合成數據集中發現了這種污染，這也說明了在 AI 領域存在潛在的意外污染風險。

本文希望，社區在使用公共基準時采取更強有力的凈化方法，并呼吁社區積極開發新的一次性測試（one-time exams）案例來準確評估模型。

改寫樣本

本文的目標是調查訓練集中包含測試集的簡單變化是否會影響最終的基準性能，并將測試用例的這種變化稱為「改寫樣本」。實驗中考慮了基準的各個領域，包括數學、知識和編碼。示例 1 是來自 GSM-8k 的改寫樣本，其中有 10-gram 重疊無法檢測到，修改后和原始文本保持相同的語義。

基準污染具有不同的形式，因此改寫技術存在一些細微的差異。對于基于文本的基準，本文在不改變語義的情況下改寫測試用例，例如通過重新排列詞序或用同義術語替換；對于基于代碼的基準測試，本文改變編碼風格、命名方式等。

如下所示，算法 1 中針對給定的測試集提出了一種簡單的算法。該方法可以幫助測試樣本逃避檢測。

接下來本文提出了一種新的污染檢測方法，可以準確地從相對于基準的數據集中刪除改寫樣本。

具體而言，本文引入了 LLM decontaminator。首先，對于每個測試用例，它使用嵌入相似度搜索來識別具有最高相似度的 top-k 訓練項，之后通過 LLM（例如 GPT-4）評估每一對是否相同。這種方法有助于確定數據集中有多少改寫樣本。

圖 4 展示了不同污染以及不同檢測方法的維恩圖。

實驗

在第 5.1 節中，實驗證明了在改寫樣本上訓練的模型可以取得顯著的高分，在三個廣泛使用的基準（MMLU、HumanEval 和 GSM-8k）中實現與 GPT-4 相當的性能，這表明改寫樣本應被視為污染，應從訓練數據中刪除。在第 5.2 節中，本文根據 MMLU/HumanEval 中改寫樣本評估不同的污染檢測方法。在第 5.3 節中，本文將 LLM decontaminator 應用于廣泛使用的訓練集并發現以前未知的污染。

接下來我們看看一些主要結果。

改寫樣本污染基準

如表 2 所示，在改寫樣本上訓練的 Llama-2 7B 和 13B 在 MMLU 上取得顯著的高分，從 45.3 到 88.5。這表明經過改寫的樣本可能會嚴重扭曲基準數據，應被視為污染。

本文還對 HumanEval 測試集進行了改寫，并將其翻譯成五種編程語言：C、JavaScript、Rust、Go 和 Java。結果顯示，在改寫樣本上訓練的 CodeLlama 7B 和 13B 在 HumanEval 上可以取得極高的分數，分別從 32.9 到 67.7 以及 36.0 到 81.1。相比之下，GPT-4 在 HumanEval 上只能達到 67.0。

下表 4 取得了同樣的效果：

對檢測污染方法的評估

如表 5 所示，除 LLM decontaminator 外，所有其他檢測方法都會引入一些誤報。改寫和翻譯的樣本都不會被 n-gram 重疊檢測到。使用 multi-qa BERT，嵌入相似性搜索被證明對翻譯樣本完全無效。

數據集污染情況

表 7 顯示了每個訓練數據集中不同基準的數據污染百分比。

LLM decontaminator 揭示了 79 個自改寫樣本的實例，占 MATH 測試集的 1.58%。示例 5 是 MATH 訓練數據中 MATH 測試的改寫示例。

了解更多內容，請查看原論文。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：国产乱码精品一区二三赶尸艳谈 | 亚洲精品乱码 | 欧美黄色网 | 欧美午夜精品 | 久久久久网站 | 久色视频在线 | 欧美日韩中文字幕 | 亚洲一区中文字幕 | 国产精品久久久亚洲 | 九九99精品 | 国产精品免费视频一区 | 日韩欧美在线一区二区 | 超碰在线亚洲 | 91精品www | 久久亚洲经典 | 日操操夜操操 | 精品国产青草久久久久96 | 欧美日韩在线电影 | 亚洲一区二区三区高清 | 北条麻妃一区二区三区在线观看 | 国产乱一区二区三区视频 | 久久久久久久久久久久久九 | 欧美日批| 国产一区二区三区四区 | 中文字幕在线剧情 | 超碰天天 | 在线观看成人小视频 | 久久一级大片 | 亚洲国产精品久久久久秋霞不卡 | 国精产品一品二品国精在线观看 | 国产精品久久久久久久久久免费看 | 五月婷亚洲 | 国产专区免费 | 天天草狠狠干 | 综合二区 | 国产精品美女久久久久aⅴ国产馆 | 久草视频在线播放 | 91在线精品秘密一区二区 | 日韩精品在线观看免费 | 国产一区二区av | 精品在线一区 |

<mark id="faiol"></mark>