成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

52頁PPT,谷歌Gemini預訓練負責人首次揭秘!擴展定律最優解

人工智能 新聞
大模型之戰烽火正酣,谷歌Gemini 2.5 Pro卻強勢逆襲!Gemini Flash預訓練負責人親自揭秘,深挖Gemini預訓練的關鍵技術,看谷歌如何在模型大小、算力、數據和推理成本間找到最優解。

谷歌憑借Gemini 2.5 Pro在激烈的大模型競爭中一舉翻盤。

近日,Geimini Flash預訓練負責人Vlad Feinberg在普林斯頓大學分享了相關內容。

他深入分析了Gemini預訓練的方法、挑戰以及方向,如何在模型大小、算力、數據和推理成本間取得平衡。

圖片

PPT鏈接:https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf

經典擴展定律

模型訓練中,計算資源的合理利用至關重要。

假設有計算資源(C)1000塊H100芯片,運行30天,如何訓練出最佳的LLM呢?

這就涉及到模型參數量(N)和訓練token數量(D)。

對于Transformer,計算量C和N、D之間存在一個近似公式:C≈6×N×D。

圖片

MLP是模型的重要組成部分,不同操作的浮點運算量和參數量有所不同。

比如圖片這個操作,訓練時的浮點運算量是6BTDF,參數量為DF。

把MLP的多個操作加起來,總訓練浮點運算量約為18BTDF,參數數量達到3DF。

注意力機制的計算更為復雜。將注意力機制相關操作的計算量相加,約為12BTSNH=12BT2NH,參數量為4DNH。

將MLP和注意力機制的計算量合并,就能了解整個模型訓練時的計算量情況。

Kaplan定律

2020年,Kaplan等人的研究揭示了模型性能與數據量、模型規模和計算量之間的關系。

自回歸Transformer模型中,小模型可以用來預測大模型的性能。

模型性能與算力、參數量、數據量之間存在冪律關系。當計算預算增加10倍時,模型參數量應增加5.37倍,數據量增加1.86倍。

這一結論在當時引起了廣泛關注,點燃了企業的「軍備競賽」。

圖片

Chinchilla(龍貓)

然而,2022年,DeepMind對Kaplan的觀點提出了質疑。

圖片

Kaplan的研究在每個模型規模下僅運行一次訓練,并用中間損失來估計不同token訓練步數下的損失。

Chinchilla論文指出,基于單次訓練的中間loss點來推斷存在缺陷,通過適當的學習率衰減可以獲得更好的損失值,只有最終的損失值才是最優的。

論文采用IsoFlops方法,固定浮點運算量預算,同時改變模型規模和訓練token數量。

  • 固定總算力C
  • 訓練多個不同參數N的模型,對應不同數據量D(C≈6×N×D)
  • 找到loss最低的模型N_opt(C)和D_opt(C)
  • 重復以上步驟,得到不同算力下的最優(N,D)點,并擬合

圖片

研究發現,模型參數N和數據量D應以大致相同的速率(冪律指數約為0.5)隨算力C增長,這與Kaplan等的結論大相徑庭。

這意味著,按Kaplan定律訓練的模型,可能存在訓練不足的情況,數據太少,會增加模型后續部署和使用的成本。

圖片

為了進一步優化模型訓練,研究人員嘗試了多種方法。通過不同的計算場景和擬合方式,得到了更精確的系數。

混合專家(MoE)模型的擴展定律展現出了獨特的優勢。與傳統模型相比,在相同的活躍參數數量和固定100B token的情況下,MoE 64E模型的性能更優。

圖片

然而,MoE模型對token數據的需求量較大,互聯網上的可用數據逐漸難以滿足其需求,這成為了發展瓶頸。

為了解決數據不足的問題,研究人員將目光投向了更多的數據來源。多模態數據,如音頻、視覺、3D 模型、視頻等,為模型訓練提供了豐富的信息。

合成數據也受到了關注。實際應用中,需要在生成質量與篩選成本之間找到平衡。

實時場景的模型選擇

在谷歌的許多應用場景中,如免費的Gemini聊天機器人、AIO、AIM、Vertex AI(用于模型微調、部署)以及AI Studio(提供生成式API)等,推理效率至關重要。

這些應用需要快速給出準確的響應,對模型的推理速度和效率要求極高。

就拿實時應用來說,Astra和Mariner都需要快速響應。

以一個網絡交互智能體為例,假設上下文128k,但每次增量只有8k token,解碼需要128 token來生成一個動作,并且動作之間的延遲不超過1秒,其中250毫秒還得用于框架搭建、負載均衡等操作。

用Llama3-70B模型和v5e芯片做實驗,發現單芯片處理8k token需5.7秒。為了達到0.5秒的API延遲限制,需要搭建4×4 v5e并行。

實時應用中,小模型反而更有優勢,如Gemini Flash/Flash-lite。

圖片

Chinchilla的擴展方法雖然在模型訓練的計算優化上有效,但它忽略了推理成本。

在實際應用中,需要綜合考慮訓練和推理的成本,找到更合適的模型和數據配置。

推理優化擴展定律

《超越Chinchilla最優:在語言模型擴展定律中考慮推理因素》這篇論文提出了新的推理優化Scaling Laws。

核心思想是,不僅最小化訓練loss,而是要綜合考慮訓練和推理的總計算量,為模型優化提供了新的方向。

圖片

按照這些公式,在相同計算量下,與Chinchilla最優策略相比,應該訓練更小的模型,并使用更多的數據,因為推理所需的計算量更少。

當然,這也存在新的挑戰。

  • 計算資源的非同質性:實際應用中計算資源存在差異,用于推理優化的芯片各不相同,給推理優化帶來了困難。
  • 推理量D_inf難以預測:技術進步提高資源利用效率,反而會增加對該資源的需求(杰文斯悖論)。模型質量提升可能會擴大市場,進而影響推理時的token數量D_inf。
  • 擬合效果不佳:不同數據集下,相關參數的擬合效果存在差異。不同token與參數比例的數據子集,擬合得到的 α、β等參數不同,和Chinchilla的擬合結果也有較大差異。

針對這些問題,研究人員采用在數據約束下建模的方法。研究引入新維度,即有意區分數據,提出新的損失函數和數據規模公式,這樣訓練出來的模型更小,對數據重復的魯棒性更強。

圖片

對于推理token數量的處理,像Llama3模型,有研究指出其8B和70B參數的模型,在訓練到15T token后,性能仍呈對數線性提升,即D_inf可視為無窮大。

蒸餾的探索與應用

除了模型大小、數據量和推理成本,知識蒸餾為推理優化擴展帶來了新的思路。

知識蒸餾擴展定律公式:

圖片

通過調整這些參數,可以優化學生模型的性能。

不過,知識蒸餾在實際應用中也有一些問題,比如趨勢影響不明顯、部分情況考慮不周全等,但可以通過權重調整等方法進行改進。

從原理上講,知識蒸餾能降低方差,更好的教師模型能減少偏差,為模型優化提供了新途徑。

谷歌Gemini預訓練技術對經典擴展定律和推理優化擴展定律都進行了深入研究。

經典擴展定律通過探索模型規模、數據量和計算量之間的關系,不斷優化模型訓練的資源配置。

推理優化擴展定律針對推理成本和效率問題,綜合考慮訓練和推理需求,提出新方法,提升模型整體性能。

同時,知識蒸餾等技術的應用也為模型的優化提供了更多的途徑。

Vlad Feinberg

圖片

Vlad Feinberg畢業于普林斯頓大學計算機科學專業,于加州大學伯克利分校RISE實驗室攻讀博士學位。

后來,Feinberg加入了一家名為Sisu的初創公司,擔任機器學習主管。他曾任職于谷歌研究院的Cerebra項目,目前在谷歌DeepMind工作。

責任編輯:張燕妮 來源: 新智元
相關推薦

2014-05-21 16:04:38

面試面試規則

2012-03-11 15:35:53

Android

2024-01-31 13:42:05

模型訓練

2021-10-13 18:59:42

AI

2012-09-26 13:44:52

Android谷歌阿里云

2012-05-22 22:00:07

谷歌

2012-12-13 11:12:24

戴爾

2009-07-16 08:19:46

魔獸網易

2015-11-16 10:16:56

技術蛻變創業

2011-08-23 17:02:37

FedoraLinux 20周年

2013-04-17 10:56:10

ONFOpenDayligh標準協議

2015-06-17 15:54:42

2011-12-28 15:16:33

Sencha開發者負責人

2011-09-26 10:38:11

Windows Ser開發

2009-03-05 09:27:31

2024-02-22 07:29:31

OpenAIKarpathy分詞器

2024-04-03 13:05:20

數據訓練

2016-12-02 19:40:41

數據分析

2019-04-01 13:20:34

技術負責人CEO

2013-04-09 11:35:44

微信游戲微信微信游戲平臺
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕第十五页 | 亚洲精品日韩在线 | 亚洲一区二区三区四区五区中文 | 一级黄色片在线免费观看 | 午夜影院普通用户体验区 | 在线观看av网站永久 | 成人三级在线播放 | 精品香蕉一区二区三区 | 中文字幕av网址 | 一区二区三区四区在线视频 | 日本一区二区三区四区 | 涩涩鲁亚洲精品一区二区 | 亚洲在线日韩 | 国产中的精品av涩差av | 亚洲夜夜爽 | 中文在线观看视频 | 成人精品一区 | 在线午夜电影 | 精品国产精品三级精品av网址 | 午夜av电影| 欧美亚洲成人网 | av网站在线免费观看 | 亚洲欧美国产毛片在线 | 精品国产乱码一区二区三 | 久热中文字幕 | www国产亚洲精品 | 国产精品3区 | 日韩电影免费在线观看中文字幕 | 人人干视频在线 | 一区二区av | 精品一区二区三区中文字幕 | h视频免费在线观看 | 精品一区二区在线观看 | 国产香蕉视频在线播放 | 精品电影 | 美女精品一区 | 天天视频一区二区三区 | 国产精品国产成人国产三级 | 伊人网综合 | 亚洲成人精选 | 福利网址 |