成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全新預訓練數據篩選方案,讓數據效率提升10倍!配置僅需fastText評分器|港科大vivo出品

人工智能 新聞
香港科技大學和vivo AI Lab聯名提出PreSelect,目前已被ICML 2025接收。

vivo自研大模型用的數據篩選方法,公開了。

香港科技大學和vivo AI Lab聯名提出PreSelect,目前已被ICML 2025接收。

這是一種輕量級且高效的數據選擇方法:只需要訓練和部署一個基于fastText的評分器,就可以減少10倍的計算需求。

該方法提出數據的預測強度(Predictive Strength) 的概念和計算公式,利用在不同模型上Loss有序性表征數據對特定能力的貢獻,通過獲取特定能力的有效樣本訓練fastText分類器對全量訓練數據進行篩選。

圖片△論文標題:Predictive Data Selection: The Data That Predicts Is the Data That Teaches

PreSelect:更客觀、更輕量

現有的數據篩選方法主要分為兩類:基于規則的篩選和基于模型的篩選。

基于規則的篩選依賴人工構建的先驗規則,如C4 pipeline、Gopher rules,以及RefinedWeb和FineWeb的數據篩選流程。此類方法雖然實現簡單,但容易受到人工經驗的限制,存在泛化能力弱或規則主觀性強的問題。

基于模型的篩選則通過訓練模型對數據分類或打分以篩選樣本,如CC Net采用困惑度(Perplexity)打分,FineWeb-Edu利用Bert分類器評估教育價值,DsDm和MATES計算樣本的influence score,DCLM利用 fastText打分器評估樣本與SFT數據的相似性。這類方法常面臨計算成本高或者引入主觀偏見等問題。

而PreSelect方法具有以下優勢:

  • 客觀性將傳統的主觀性的數據質量評估轉化為對模型能力的貢獻大小,通過“預測強度”指標,量化評估數據在不同能力上的價值;
  • 泛化性篩選的正樣本不僅覆蓋高質量內容來源,同時具備良好的多樣性,避免過度集中于某一領域、來源或風格;
  • 輕量級通過fastText分類器近似打分,大幅降低計算成本,使得該方法可以高效應用于大規模數據篩選任務中;
  • 高細粒度
  1. 支持樣本級別的篩選
  2. 支持特定細分能力維度的數據篩選

△PreSelect方法與現有SOTA方法的對比,數據效率提升10倍

PreSelect:壓縮即智能

“壓縮即智能”(compression represents intelligence)這一觀點揭示了一個核心現象:大模型對數據的壓縮能力(例如BPC, bits per character)與其在該數據上的歸一化Loss存在等價關系,且與模型在下游任務中的表現高度相關。

換言之,模型越能高效壓縮數據,模型能力或智能水平越高。

核心思想

PreSelect團隊提出以數據預測強度(Predictive Strength)作為衡量模型loss與下游任務(benchmark)表現一致性的指標,其計算公式如下:

圖片

  • N代表模型數量,這些模型在benchmark的得分 {S1 < S2 < … < SN}
  • C代表模型在數據集d上的歸一化loss,即BPC
  • Z為歸一化因子
  • I{}為指示函數
  • S取值范圍 [0,1]

當S=1 時,表示不同模型在benchmark上的得分排序與其在該數據上的loss排序完全一致,說明該數據具有很高的預測強度;相反,當S=0時,說明兩種排序之間沒有相關性,該數據對下游任務的作用弱,預測強度很低。

根據預測強度的高低對數據進行篩選,優先保留那些使得不同模型在benchmark上的得分排序與在數據上的loss排序更一致的數據。

這類數據對模型能力的貢獻更加顯著,能夠更有效地提升模型效果。

與現有方法相比,該方法具有更堅實的理論基礎,減少了對人工啟發規則的依賴,篩選過程更客觀、更具有泛化性。

系統框架

計算預測強度需要多個模型分別對數據樣本計算loss,全量數據計算的成本將非常高。

為解決這一問題,使用fastText打分器作為代理模型近似預測強度,從而顯著降低計算成本。

整體流程如下:

圖片

訓練效果

圖片

PreSelect團隊從RefinedWeb數據集中隨機抽取80B、300B和1T tokens作為基礎數據,評估不同篩選方法的效果。篩選比例設置為10%和30%,篩選后的數據量級包括8B、30B、90B和100B。所訓練模型的參數規模包括400M、1B和3B。

實驗對比的篩選方法包括Random、Perplexity Filter、Perplexity Correlation(DD)、Perplexity Correlation(DP)、FineWeb-Edu、DCLM。

在下游17個任務上的實驗結果表明,PreSelect方法篩選出的數據在訓練的模型效果上顯著優于其他方法,對比baseline平均提升了3%,驗證了其有效性。

圖片

在C4數據集上,進一步對比多種主流篩選方法,包括Random、DSIR、DsDm、QuRating和MATES,所訓練的模型為Pythia。

實驗結果顯示,PreSelect方法篩選的數據訓練出的模型在多項指標上均優于其他方法。

圖片

從已通過人工規則集和多種質量評分模型篩選,并經過不同粒度的文本級和語義級去重的vivo自有Web數據集中,隨機抽取5T tokens作為基礎數據,分別采用PreSelect與Random方法各自篩選10%(即500B tokens),訓練參數規模3B的模型并評估下游任務效果。

實驗結果表明,即使在自有的經過優化處理的數據集上,PreSelect方法依然有顯著的性能提升,展現出其在高質量數據基礎上的增益能力。

圖片

經過對不同數據篩選方法所選擇的樣本進行分析,結果表明PreSelect篩選的domain數據更多地采樣了知識、問答和文學領域,更廣泛地覆蓋了高質量來源內容,能夠顯著提升模型在各個領域的效果。

圖片

通過對不同數據篩選方法所篩選出的數據長度進行比較,可以看到DCLM 和FineWeb-Edu顯示出明顯的短數據向量和長數據向量趨勢,而PreSelect篩選的數據在長度分布上更接近原始長度分布。表明其在篩選出高質量樣本的同時,有效減少了樣本長度偏差(length bias),具備更好的代表性與覆蓋性。

論文鏈接:https://arxiv.org/abs/2503.00808

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-03 08:49:00

2022-12-13 08:45:01

3F傾聽模型

2025-06-24 09:00:00

訓練模型代碼

2023-10-24 19:06:59

模型訓練

2022-05-30 15:44:33

模型訓練GAN

2023-02-22 19:15:35

AI工具機器人

2016-10-09 20:07:43

2020-07-22 08:30:02

代碼開發工具

2021-02-25 09:59:10

數據安全惡意攻擊密碼

2022-10-19 14:03:45

開源AI

2020-07-21 15:40:55

NginxJava服務器

2025-06-18 08:49:00

模型系統AI

2023-06-26 07:10:51

2012-11-21 17:35:21

Oracle技術嘉年華

2021-11-26 10:18:37

AI 數據機器學習

2024-11-27 14:30:00

模型訓練

2018-01-19 09:00:37

2022-11-01 14:50:00

數據計算

2024-09-27 10:31:22

2014-07-31 09:35:57

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品欧美精品 | 日韩一区二区黄色片 | 97精品超碰一区二区三区 | 午夜影院在线观看版 | 中文字幕在线观看成人 | 成年人在线观看 | 日本成人三级电影 | 亚洲一区二区在线播放 | 涩涩视频在线观看免费 | 欧美日韩视频 | www.4虎影院 国产999精品久久久影片官网 | 国产精品a久久久久 | 久久久久一区 | 精品久久久久久久久久久久久久 | 欧美在线一区二区三区 | 日韩免费成人av | 美女爽到呻吟久久久久 | 久久久.com | 在线观看涩涩视频 | 成人日批视频 | 日本成人三级电影 | 91视频在线观看 | 中文字幕亚洲视频 | 欧美一区2区三区4区公司 | 日韩在线视频一区二区三区 | 羞羞视频在线观看 | 综合一区二区三区 | 国产精品一区二区视频 | 亚洲欧洲日韩精品 中文字幕 | 日韩精品视频在线观看一区二区三区 | 成人精品一区二区三区四区 | 草久在线| 99re视频精品 | 91视频大全| 中文一区| 亚洲视频自拍 | 欧美一级片免费看 | 日本小电影网站 | 91久久精品国产91久久性色tv | 欧美激情精品久久久久久变态 | 国精品一区 |