成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型「強崩潰」!Meta新作:合成數(shù)據(jù)有「劇毒」,1%即成LLM殺手

人工智能 新聞
1%合成數(shù)據(jù),就能讓模型瞬間崩潰!來自Meta、NYU等機構(gòu)團隊證實,「微量」合成數(shù)據(jù)便讓LLM弱不可堪。甚至,參數(shù)規(guī)模越大,模型崩潰越嚴重。

1%的合成數(shù)據(jù),就讓LLM完全崩潰了?

7月,登上Nature封面一篇論文證實,用合成數(shù)據(jù)訓練模型就相當于「近親繁殖」,9次迭代后就會讓模型原地崩潰。

圖片

論文地址:https://www.nature.com/articles/s41586-024-07566-y

然而,許多大佬都不同意這篇文章的方法和結(jié)論。

比如,Scale AI的CEO Alexandr Wang就很看好合成數(shù)據(jù)的前景,英偉達發(fā)布的開源模型Nemotron-4 340B甚至使用了98%的合成數(shù)據(jù)。

最近,Meta、紐約大學、UCLA機構(gòu)發(fā)表的最新論文,再一次動搖了這些大佬們的結(jié)論。

圖片

論文地址:https://arxiv.org/abs/2410.04840

他們發(fā)現(xiàn),即使合成數(shù)據(jù)僅僅占到總數(shù)據(jù)集的最小部分,甚至是1%的比例,仍然可能導致模型崩潰。

甚至,ChatGPT和Llama這種較大的模型,還可能放大這種「崩潰」現(xiàn)象。

強模型崩潰,如何發(fā)生的?

隨著越來越多的合成數(shù)據(jù)出現(xiàn)在訓練集中,一種新的現(xiàn)象應運而生:「模型崩潰」。

所謂「模型崩潰」,是指隨著時間的推移,LLM或大型圖像生成器在其前幾代生成的數(shù)據(jù)上進行遞歸訓練,導致性能下降,直至模型完全喪失能力的情況。

圍繞著這個問題,AI學界和業(yè)界的大佬依舊莫衷一是,尚未達成一致的結(jié)論。

而合成數(shù)據(jù)究竟會在多大比例、多大程度上導致「模型崩潰」,直接影響著我們在未來如何應用這項技術(shù)。

從直覺上理解,合成數(shù)據(jù)導致「模型崩潰」的底層邏輯,是由于模型開始對合成數(shù)據(jù)中的模式進行過擬合,而這些模式可能無法代表現(xiàn)實世界數(shù)據(jù)的豐富性或可變性。

圖片

如果進行連續(xù)的迭代訓練,這種反饋循環(huán)會導致模型強化合成數(shù)據(jù)中存在的錯誤、偏差或過度簡化,因而損害了對現(xiàn)實世界的準確表示能力和泛化能力。

總體而言,這篇文章旨在回答以下兩個重要問題:

Q1:模型崩潰是不可避免的,還是可以通過策略性地混合真實數(shù)據(jù)和合成數(shù)據(jù)來解決?

Q2:較大的模型比較小的模型更容易崩潰嗎?

針對這兩個問題,論文以經(jīng)典線性設(shè)置中的回歸問題為例進行了理論分析,之后在「玩具設(shè)置」(MINIST數(shù)據(jù)集+迷你模型)和更接近真實場景的GPT-2模型上運行了實驗。

理論設(shè)置

數(shù)據(jù)分布

考慮從真實數(shù)據(jù)分布P_1采樣得到的n_1個獨立同分布樣本??_1={(x_i, y_i)∣1≤i≤n_1},以及從合成數(shù)據(jù)分布采樣得到了n_2個獨立同分布樣本??_2={(x_i, y_i)∣1≤i≤n_2},令n:=n_1+n_2為訓練數(shù)據(jù)總量。

這里,數(shù)據(jù)分布的特征可以在?^d×?上給出,即P_k=P_{Σ_k,w_k^?,σ_k^2}:

圖片

其中,每個Σ_k都是一個d×d的正定協(xié)方差矩陣,捕獲輸入特征向量x的內(nèi)在變化;σ_k控制每種分布中標簽噪聲的水平。

為了簡潔起見,我們將對w_k^?做出以下先驗假設(shè)(對于某些d×d正半定矩陣Γ和Δ):

- 真實標簽:w_1^?~N?(0,Γ)

- 真實標簽與合成標簽之間的不匹配:δ:=w_2^??w_1^?~N?(0,Δ) ,獨立于w_1^?

其中,矩陣Γ捕獲真實/測試分布中的真實標簽函數(shù)的結(jié)構(gòu)P_1;矩陣Δ=cov?(w_2^??w_1^?)捕獲數(shù)據(jù)分布P_1和P_2之間關(guān)于條件分布p?(y|x)差異的協(xié)方差結(jié)構(gòu),連同標簽的噪聲水平σ_1^2和σ_2^2。

平均而言,兩種分布的L2范數(shù)差異可以表示為,圖片。

因此,合成數(shù)據(jù)的質(zhì)量就可以被定義為,圖片

模型和性能度量

給定訓練數(shù)據(jù),模型的學習目標是構(gòu)建一個估計器w\hat,這可以看作是一個線性模型 x?x^??w\hat。與真實數(shù)據(jù)分布P_1對比,模型的測試誤差f\hat:?^d→?就可被定義為:圖片

圖片

針對不同的模型,f\hat就是本篇論文的主要研究對象。此處考慮兩類易于分析處理的模型:1)經(jīng)典線性模型,對輸入空間中的回歸施加懲罰,以及2)通過隨機投影得到特征空間,之后施加回歸懲罰獲得的模型。

第一類線性模型的優(yōu)化目標如公式3所定義:

圖片

該模型存在如下的比例縮放限制(proportionate scaling limit):

圖片

由此,我們可以得到表示經(jīng)典線性模型 f_{C?L}\hat的定理1:

圖片

由定理1和相關(guān)推論可知,在Scaling Law范式中(?→0+),如果要保持穩(wěn)定,則必須要求p2→0+,即僅對真實數(shù)據(jù)進行訓練,否則就會導致模型崩潰。

對第二類的隨機投影模型(random projections model),可以通過其中的隨機投影來簡單近似神經(jīng)網(wǎng)絡。

相當于,模型圖片中,v\hat ∈ ?^k通過擬合數(shù)據(jù)集進行學習,優(yōu)化目標如公式5所定義:

圖片

同樣規(guī)定在如下的漸近(asymptotic)機制中工作:

圖片

這類模型可以被視為實際神經(jīng)網(wǎng)絡高維動態(tài)的簡化。將定理1擴展到隨機投影情況,可以得到定理2:

圖片

其中,ζ表達式的第一項給出了下界圖片

這就意味著,除非p2→0+,即訓練集中合成數(shù)據(jù)部分消失,否則模型的性能將始終穩(wěn)定在基線E\bar之上(意味著強烈的模型崩潰)。

此外,其中的圖片部分僅取決于模型的設(shè)計選擇(之前通過標量θ定義),因此可以預計,不同的設(shè)計選擇(例如模型大?。瑢е虏煌哪P捅罎⑤喞?/span>

實驗結(jié)果

如上所示,定理2作為定理1的拓展,給了我們相同的結(jié)論:要想模型不崩潰,合成數(shù)據(jù)比例就需要無限接近0。

接下來,作者通過一系列實驗驗證了這一理論推導,并探究模型尺寸在其中扮演的作用。

圖1對應的實驗中,訓練樣本總數(shù)固定為 n=500,不同的c^2值對應不同質(zhì)量的合成數(shù)據(jù)。

圖片

c^2=0 (非常高質(zhì)量的綜合數(shù)據(jù)),用方形標記表示;c^2=0.1 (高質(zhì)量合成數(shù)據(jù)),用菱形表示;c^2=0.5 (低質(zhì)量),用三角形表示,以及c^2=1 (非常低質(zhì)量的合成數(shù)據(jù)),用星形表示

由圖可知,對于較高質(zhì)量的合成數(shù)據(jù)(方形和菱形),使用較大的模型(即更大的ψ)的確是最佳實踐;但如果數(shù)據(jù)質(zhì)量較低,模型并不是越大越好,最佳權(quán)衡反而處于中等大小。

此外,如圖5所示,網(wǎng)絡的寬度m也會造成影響,而且實驗得到的曲線與理論預測值的擬合效果比較理想。

圖片

實線對應實驗結(jié)果(5次運行),而虛線對應理論預測

改變合成數(shù)據(jù)的質(zhì)量后,圖5所示的整體趨勢依舊成立。

圖片

圖6所示的實驗采用了經(jīng)過全面訓練的兩層網(wǎng)絡,但僅根據(jù)合成數(shù)據(jù)進行訓練,依舊支持了上述的總體趨勢:

- 合成數(shù)據(jù)造成了顯著的模型崩潰

- 模型越大,崩潰程度越嚴重

圖片

圖7分別顯示了隨機特征模型(左)和完全訓練的神經(jīng)網(wǎng)絡(右)的結(jié)果,探究合成數(shù)據(jù)比例的影響。

兩種情況基本一致,除非P_2接近0,否則模型就逐漸脫離Scaling Law的軌跡,逐漸拉平成為一條水平線,即MSE損失不再隨樣本增加而降低,意味著出現(xiàn)了模型崩潰。

圖片

相比圖7的小模型和小數(shù)據(jù)集,圖8使用的BabiStories數(shù)據(jù)集和GPT-2模型更接近現(xiàn)實中的復雜情況。

可以看到,即便是少量的合成數(shù)據(jù)也會延遲Scaling Law的進展,作者預計,這最終會導致最終Scaling Law提前達到飽和狀態(tài)或至少出現(xiàn)非常糟糕的指數(shù)(即小指數(shù))。

圖8(右)所示的關(guān)于模型尺寸的影響。在數(shù)據(jù)集的某個閾值前,較大/較深的模型保持較低的測試損失;但超過一定閾值后,較小的模型反而由于減少過擬合而占了上風。

這表明,較大的模型往往會將模型崩潰放大到某個插值的閾值之外。

圖片

BabiStories包含Mixtral-8x7B生成的高質(zhì)量合成數(shù)據(jù)

數(shù)據(jù)混合,能否防止LLM崩潰?

如上,作者分別從理論、實證上,證實了強模型崩潰所在。

接下來,他們將通過合成數(shù)據(jù)策略,探索如何緩解模型崩潰這一現(xiàn)象。

這里首先假設(shè)有關(guān)于數(shù)據(jù)源的明確信息,并使用兩種數(shù)據(jù)混合方法:

1 加權(quán)數(shù)據(jù)混合

2 戰(zhàn)略性迭代混合

加權(quán)單步數(shù)據(jù)混合

為了研究學習真實數(shù)據(jù)和替代數(shù)據(jù)(例如合成數(shù)據(jù))混合的scaling law,考慮的設(shè)置需包括以下優(yōu)化問題:

圖片

結(jié)果如下所示,真實數(shù)據(jù)+模擬數(shù)據(jù)混合法,無法解決模型崩潰問題。

在實驗中,作者使用了多個不同的真實數(shù)據(jù)n1和合成數(shù)據(jù)n2的大小值。

圖片

動態(tài)/多步數(shù)據(jù)混合

迭代混合恢復了scaling law,但在實踐中可能不可行。

研究人員觀察到,在t次迭代(t的數(shù)量級為log(n/d))的迭代混合后,會得到與E成比例的縮放規(guī)律,這在圖10中得到了經(jīng)驗證實。

然而,這需要付出顯著的自舉(bootstrapping)成本,大量的真實數(shù)據(jù),以及在多次迭代中清晰區(qū)分真實和合成數(shù)據(jù)的能力——這些條件在實踐中都過于計算密集且難以實現(xiàn)。

圖片

而且,迭代混合主要依賴真實數(shù)據(jù)。

在圖10中,研究人員比較了迭代混合的scaling效果,與僅使用同一訓練集中圖片部分真實數(shù)據(jù)(Clean)所獲得的scaling效果。

雖然scaling率保持一致,但迭代混合的表現(xiàn)始終不如單獨使用真實數(shù)據(jù)。

這表明迭代混合可能主要是中和了合成數(shù)據(jù),并嚴重依賴真實數(shù)據(jù)來恢復scaling效果。

即使原始合成數(shù)據(jù)質(zhì)量很高(即當圖片很小時,如圖10最右側(cè)所示),迭代方法也未能有效利用合成數(shù)據(jù),導致性能比單次混合更差。

因此,盡管迭代混合恢復了相同的scaling率,模型仍在某種程度上發(fā)生了崩潰,并且沒有觀察到顯著的性能改善。

最后,研究人員還證明了,與少量實際數(shù)據(jù)進行迭代混合,也是會導致模型崩潰。

總而言之,這項研究系統(tǒng)地描述了真實、合成數(shù)據(jù)混合,訓練模型的效果,表明了模型崩潰是一種穩(wěn)健的現(xiàn)象,即使在合成數(shù)據(jù)比例很小的情況下。

作者介紹

Elvis Dohmatob

圖片

2021年,Elvis Dohmatob加入了FacebookAI Research(FAIL)成為一名研究員。在此之前,他曾在INRIA、Criteo擔任過研究員。

他的研究興趣包括:深度學習(主要是理論方面)、穩(wěn)健優(yōu)化等等。

Yunzhen Feng(馮韞禛)

圖片

Yunzhen Feng目前是紐約大學數(shù)據(jù)科學中心數(shù)學和數(shù)據(jù)組的博士生,導師是Julia Kempe教授。在Meta的FIRE實習期間,與Yann Olivier博士共事。

目前,他的研究興趣在于:1)改進的科學推理方法,2)強化學習和測試時間優(yōu)化,3)人工智能合成數(shù)據(jù)對當代學習范式的影響。

他曾在2021年獲得北大數(shù)院應用數(shù)學學士學位,導師是Bin Dong教授。

Arjun Subramonian

圖片

Arjun Subramonian目前是UCLA計算機科學理論博士生,并在Meta實習。

他的博士研究重點是圖神經(jīng)網(wǎng)絡中社會不公平的理論基礎(chǔ),對利用譜圖理論和統(tǒng)計學來表征圖的結(jié)構(gòu)屬性如何導致算法不公平感興趣。

Julia Kempe

圖片

Julia Kempe是紐約大學數(shù)據(jù)科學中心和Courant數(shù)學科學研究所計算機科學、數(shù)學和數(shù)據(jù)科學的銀牌教授,也是Meta Fair的客座高級研究員。


責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-04-18 08:38:15

LLM數(shù)據(jù)訓練模型

2024-01-22 08:50:00

AI訓練

2023-02-23 07:46:48

學習模型數(shù)據(jù)倉庫

2024-01-16 14:23:32

大數(shù)據(jù)人工智能AI

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2024-10-21 13:20:00

視頻數(shù)據(jù)集

2025-01-23 09:15:00

數(shù)據(jù)技術(shù)模型

2023-12-25 13:01:00

模型訓練

2024-10-15 15:30:00

大模型數(shù)據(jù)

2023-10-06 20:30:33

大模型LLMtoken

2022-08-11 08:00:00

機器學習合成數(shù)據(jù)深度學習

2024-06-18 14:01:17

2024-06-19 13:02:01

2025-05-14 13:23:19

數(shù)據(jù)模型AI

2025-06-25 08:53:00

模型AI強化學習

2024-04-25 14:40:47

2025-05-29 08:30:00

LLM大語言模型AI

2024-07-31 08:14:17

2024-04-07 14:28:48

邊緣計算LLM人工智能
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 午夜精品久久久久久不卡欧美一级 | 91综合在线视频 | 久久成人av电影 | 91精品国产高清一区二区三区 | 亚洲国产精品久久久久 | 国产高清免费 | 欧美久久久久久 | 成人h视频在线 | 91中文字幕在线 | 91精品国产乱码久久久久久久久 | 国产精品视频免费观看 | 亚洲综合视频 | 国产福利在线播放 | 精品久久久久久久久亚洲 | 国产黄色精品在线观看 | 国产91丝袜在线播放 | 中文字幕1区 | 欧美日韩在线成人 | 日韩欧美精品 | 干干干操操操 | 美女二区 | 欧美韩一区二区三区 | 欧美成人精品一区二区男人看 | 99福利 | 日韩欧美亚洲 | 国产精品一级在线观看 | 亚洲一区综合 | 久久国产精品偷 | 精品欧美一区二区三区精品久久 | 精品久久久久久久久久久 | 成人日韩精品 | 日韩福利电影 | 美女久久视频 | 欧美中文字幕在线观看 | 99精品欧美一区二区蜜桃免费 | 羞羞色影院 | 91视频电影 | 在线色网| 精品久久99 | 九九久久久久久 | 亚洲一区国产 |