成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小模型指導大模型!田淵棟等爆錘蒸餾:新方法更高效、更透明、更可控

人工智能 新聞
基于連續(xù)概念,Meta團隊新研究提出了超越「下一個token預測」語言建模新范式。更加重要的是,新方法不僅能增強原有的范式,而且比起知識蒸餾,數(shù)據(jù)量減少20%,甚至能從小模型提取概念指導更大的模型!

「下一個token預測」(next token prediction,NTP)是大語言模型(LLMs)不斷取得突破的核心技術。

但這種依賴tokenization的方法,導致LLM「嚴重偏科」。

比如,Karpathy發(fā)現(xiàn)一個表情包相當于53個token!

關注AI的可能也知道GPT-4o不會數(shù)字母,不知道Strawberray中有幾個字母「r」。

為了解決此類問題,最近的研究探討了超越token級信號的方法,利用更豐富的信息來訓練模型。

比如說,一次性預測多個token;在下一個token預測之前增強輸入,加入豐富的信號;或用連續(xù)的潛在表示替代離散的語言標記,提高推理效率。

Meta的下一代系統(tǒng)「大概念模型」,徹底超越token級別語言建模,直接在語句級別上語言建模,擺脫人類語言類型對模型性能的制約。

這次,受到近期研究發(fā)現(xiàn)的啟發(fā),來自Meta的研究人員認為稀疏自編碼器(Sparse Autoencoders,SAEs)可以捕捉高層次的語義概念,在LLM中有效地隔離出有意義的潛在特征。

由于SAEs是通過稀疏性約束訓練,重構模型的隱狀態(tài),它促使模型集中關注一組緊湊的概念維度。

這可以突出預訓練模型的概念——即支撐模型預測的核心語義方向,同時避免不必要的特征。

論文鏈接:https://arxiv.org/abs/2502.08524

新研究在多個語言建模基準和預訓練模型規(guī)模(從百萬規(guī)模到十億規(guī)模的參數(shù)模型)上進行廣泛的評估,展示了CoCoMix的有效性。

例如,在應用于1.38B參數(shù)模型時,CoCoMix在下一個token預測任務中的表現(xiàn)與傳統(tǒng)方法相當,同時減少了21.5%的訓練數(shù)據(jù)量。

此外,CoCoMix在弱監(jiān)督到強監(jiān)督場景中表現(xiàn)出顯著的提升,其中從小模型中提取的概念甚至可以作為真實標簽,用于監(jiān)督大模型的訓練。

最后,通過插入壓縮的概念向量,能夠在生成過程中探查預測的概念,從而引導和控制模型。

主要方法:CoCoMix

CoCoMix是一種新的LLM預訓練框架,通過預測概念并將其混入模型的隱狀態(tài)中,以提高下一個token預測的準確性。

更高的樣本效率,在下一個token預測、知識蒸餾以及插入暫停token等任務中表現(xiàn)優(yōu)越,同時提高可解釋性和可引導性,增強模型的可控性。

連續(xù)概念混合(CoCoMix)使用基于連續(xù)概念的語言建模框架。具體而言,CoCoMix包含三個步驟來學習和使用潛在概念:

1. 從預訓練的SAE中,提取概念并選擇顯著的概念。

2. LLM從其隱藏狀態(tài)預測這些概念。

3. 一旦預測出多個概念,就將它們壓縮成一個單一的「連續(xù)概念」,并將其「混合」到LLM隱藏狀態(tài)中。

圖1:CoCoMix的概覽。

新研究證明了CoCoMix具有更高的樣本效率,并且優(yōu)于標準的下一個token預測和知識蒸餾基線。

實驗結果

CoCoMix在性能上始終優(yōu)于下一個token預測和知識蒸餾。

此外,新研究表明CoCoMix可以實現(xiàn)弱監(jiān)督到強監(jiān)督的轉換,其中從較小模型中提取的概念可以指導更強(或更大)的學生模型

由于模型經(jīng)過訓練可以預測其隱藏狀態(tài)中的概念,可以通過檢查概念預測來分析它關注哪些概念。通過放大或抑制預測的概念,我們還可以控制模型的輸出生成。

總而言之,CoCoMix效率更高,并且在不同模型規(guī)模下都優(yōu)于下一個token預測,同時還引入了可解釋性。

具體而言,通過研究以下問題,對CoCoMix進行了實證評估:

  • CoCoMix能否提高LLM預訓練中下一個token預測的性能?(圖2和圖3)
  • 與其他知識蒸餾方法相比,CoCoMix從弱監(jiān)督到強監(jiān)督設置中是否表現(xiàn)出改進?(表1和圖4)
  • CoCoMix是否引入了模型的可解釋性和可操縱性?(圖5)
  • CoCoMix提出的各個組件對性能貢獻如何?(圖6)

提高NTP性能

圖2展示了CoCoMix與NTP(Next Token Prediction,下一個token預測)在不同訓練檢查點(checkpoint)的性能比較。每個模型包含總共1.38B個參數(shù),都在OpenWebText數(shù)據(jù)集上進行訓練。對于CoCoMix,概念是從一個1.24億大小的模型(比基礎模型小10倍)中提取的。

顯示了以下方面的改進:(a)驗證困惑度,(b)在LAMBADA、WikiText-103上的平均困惑度,以及(c)在HellaSwag、PIQA、SIQA、Arc-Easy和WinoGrande上的平均準確率。

圖3展示了CoCoMix與NTP在不同模型大小下的性能比較。考慮了各種模型大小,包括69M、386M和1.38B個參數(shù),并在200B個OpenWebText的token上進行訓練。評估了模型在OpenWebText驗證困惑度以及下游數(shù)據(jù)集LAMBADA、WikiText-103、HellaSwag、PIQA、SIQA、Arc-Easy和WinoGrande上的表現(xiàn)。

與知識蒸餾比較

表1展示了CoCoMix與下一token預測(NTP)與知識蒸餾(KD)的對比。報告了在OpenWebText(OWT)訓練集上的表現(xiàn),以及在下游任務中的表現(xiàn)。訓練了三種不同規(guī)模的模型,其中124M模型作為教師模型。所有模型均在從OpenWebText數(shù)據(jù)集采樣的20B個token上進行訓練。加粗部分表示最佳結果。

圖4展示了CoCoMix與知識蒸餾(KD)的比較。對于弱監(jiān)督到強監(jiān)督設置,訓練一個386M的模型,其中KD的教師(或CoCoMix的概念提取器)是一個124M大小的模型:報告了(a)在OpenWebText、LAMABADA和WikiText上的平均困惑度,以及(b)在HellaSwag、PIQA、SIQA、Arc-Easy和WinoGrande數(shù)據(jù)集上的平均準確率。對于(c)分布偏移設置,在OpenWebMath(一個數(shù)學特定的預訓練語料庫)上訓練所有方法。

可解釋性和可操縱性

圖5是概念引導效果的定性說明。CoCoMix和GPT2模型分別是350M和124M參數(shù)的Transformer,訓練數(shù)據(jù)集為OpenWebText。對于CoCoMix,通過調(diào)整預測的概念logit值z來進行操作,而對于GPT2,通過增加特定概念索引的激活值來調(diào)整SAE概念空間c。這展示了有針對性的概念引導對各自模型輸出的影響。

各組件貢獻

圖6 對CoCoMix的分析:

(a) 歸因分數(shù)在選擇概念中的有效性。

(b) 概念預測與直接隱藏狀態(tài)預測的比較(即,用連續(xù)損失預測隱藏狀態(tài),而不是用SAE離散化隱藏狀態(tài))。

(c) 壓縮權重的稀疏性。

(d) 通過分析概念預測和混合的貢獻進行的組件分析。

(e) 通過比較將概念向量添加到原始隱藏狀態(tài)和混合(將概念向量與token隱藏表示交替)來選擇概念條件設定的設計。

(f) CoCoMix與暫停token(即添加可學習的tokens)的比較。使用了一個69M的transformer,并且使用來自OpenWebText數(shù)據(jù)集的20B個tokens進行訓練。

另外,值得一提是,作者中有多位華人,特別是「網(wǎng)紅科學家」田淵棟也參與了本次論文工作。

更為詳細的實驗設置,請參閱原文。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-02-17 09:30:00

AI訓練模型

2024-02-27 11:46:40

2023-05-15 09:43:49

模型數(shù)據(jù)

2023-12-07 06:51:18

AI模型

2024-03-08 12:35:41

模型數(shù)據(jù)

2024-12-19 09:48:07

2024-02-26 00:20:00

AI模型

2025-06-20 08:47:00

量子計算AI模型

2023-03-17 08:28:17

GPT-4AI

2023-06-28 18:10:27

羊駝家族大模型集體進化

2022-06-02 10:29:23

神經(jīng)網(wǎng)絡AI計算機

2024-12-30 07:11:00

大型視覺語言模型VLMs人工智能

2023-09-06 13:34:31

2025-02-28 09:15:00

2025-04-22 08:08:37

2023-08-04 13:42:41

2023-09-25 10:04:37

模型AI

2025-02-06 07:26:35

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡攻擊

2024-06-07 09:15:48

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一级视频黄色 | 亚洲一区二区三 | 亚洲国产成人精品女人久久久 | 国产在线观看一区二区 | 亚洲精品日韩一区二区电影 | 97av视频在线观看 | 午夜网址 | 国产视频福利一区 | 国产一卡二卡三卡 | 中文字幕av一区二区三区 | 毛片1| 少妇特黄a一区二区三区88av | 日本 欧美 国产 | 99亚洲精品| 激情av| 亚洲一区二区黄 | 久久久久网站 | 99免费视频 | 欧美日韩成人在线 | 日本高清中文字幕 | 国产伦精品一区二区三区四区视频 | 一个色在线 | 国产精品毛片一区二区三区 | 久草视频网站 | 国产精品久久国产精品99 gif | 国产精品久久久久一区二区三区 | 国产免费一区二区 | 欧美一区二区三区精品 | 欧美国产视频 | 国产日产精品一区二区三区四区 | 久久精品一区二区三区四区 | 国产精品日韩欧美一区二区 | 日本91av视频 | 伊人伊人 | 人人人人人爽 | 午夜精品一区二区三区在线 | 精品免费国产视频 | 久草在线 | 久久精品国产一区二区 | 最新超碰 | 草久久|