成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型生成提速2倍!單GPU幾小時搞定微調,北大數院校友共同一作丨開源

人工智能 新聞
這項新研究名叫Medusa(美杜莎),來自普林斯頓、UIUC、CMU和康涅狄格大學,FlashAttention作者Tri Dao也在其中。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

只需給大模型“加點小零件”,推理速度立刻提升2倍!

圖片

不需要額外訓練一個模型,也不需要對計算硬件做優化,單張A100最快幾小時就能微調完成。

這項新研究名叫Medusa(美杜莎),來自普林斯頓、UIUC、CMU和康涅狄格大學,FlashAttention作者Tri Dao也在其中。

圖片

目前,它已經成功部署到伯克利70億參數的“駱馬”Vicuna中,后續還會支持其他大模型,已經登上GitHub熱榜:

圖片

但其實,在這種方法推出之前,業界并非沒有大模型推理加速方法,主流的就是DeepMind推出的投機采樣(speculative decoding)。

相比這種方法,Medusa有什么不一樣的地方?

投機采樣的2個“bug”

要想加速大模型推理,需要先知道究竟是什么“限制”了它的速度。

相比計算量的增加,大模型推理速度更容易受到內存帶寬的影響(memory bound)。

這是因為,大模型由于參數量巨大、遠超緩存容量,因此推理時需要先把權重從外部內存(顯存)讀取一次到緩存中,這個過程受內存帶寬限制,速度通常很慢。

圖片

因此,模型做批量推理(batch inference)時,一次處理100個tokens和一個tokens時間上區別不大。

基于這個特點,DeepMind去年11月想出了一個名叫投機采樣的神奇操作——

訓練一個更小的模型(draft模型),給大模型提前生成一批“候選詞”,相比于讓大模型自己“思考”生成,直接做“選擇”就好。

圖片

由于小模型生成速度比大模型快好幾倍,一旦大模型覺得小模型已有的詞“可用”,就直接拿來,不用自己再緩慢生成一遍。

這個過程,有點像是輸入法的聯想詞候選,在我們(大模型)想好下一個詞用什么之前,輸入法(小模型)先給列出一些備選項:

要是看到覺得不錯,就從中選一個用;要是覺得生成的都不行,就pass掉自己重新打。

圖片

這種投機采樣方法確實取得了顯著成效,甚至能輕輕松松在M2 Ultra上以高精度跑340億參數LLaMA大模型。

圖片

BUT,這種方法存在兩個問題。

一方面,給大模型找個生成“候選詞”的draft小模型,沒那么容易。

這個小模型可不是隨便抓個生成模型就能用,除了接口統一、概率分布接近等要求,生成質量也不能比大模型差太多。

對于Meta發布的LLaMA這種模型可能還好,既有幾百億參數的大模型版本,又有幾十億參數的小模型版本,可以把參數量更小的版本拿來當draft模型使用。

但對于其他開源大模型,這種方法就不太適用了,自己去搭建訓練一個小模型,不僅時間成本更高,生成效果可能還不達預期。

另一方面,雙模型的組合,使得后續要想做系統調優變得更復雜。

這是因為,相比于大模型自身是一個系統,新增加的draft模型相當于又引入了一個系統。

這樣會導致模型部署起來更復雜,包括額外的網絡傳輸、不同的硬件條件都需要考慮到,在做計算優化時難度也會進一步提升。

為了解決這些問題,Medusa出現了。

不用小模型,加幾個“頭”就行

Medusa(美杜莎,一種長有多個頭的妖怪)是一種新的大模型推理加速方法。

相比投機采樣,它選擇直接給Transformer大模型多加幾個解碼頭(decoding heads),每個頭都是一個單層前饋網絡。

圖片

這幾個多出來的解碼頭,可以讓大模型直接一次多生成幾個詞,而不是“擠牙膏式”一個一個生成。

生成準確率也還可以,在預測“下一個詞的下一個詞”時,Medusa準確率達到了60%,還在不斷優化中。

隨后,結合樹狀注意力機制(tree-based attention mechanism)并行驗證這些詞,從而實現推理加速。

圖片

基于Medusa,Vicuna的70億、130億和330億參數大模型推理速度,均有了1.9倍以上的效率提升:

圖片

針對70億參數的模型,研究者們還在不同任務上測試了一下加速效果,顯示最高在代碼生成上有2.15倍的速度提升。

圖片

最關鍵的是,用上Medusa后,并不需要將整個大模型重新訓練一遍。

相比之下,它可以和大模型一起訓練,只需要凍結大模型的參數就行,甚至單個GPU就能搞定。

由于不增加額外的模型,對于分布式推理也很友好。

作者介紹

這項研究有兩位共同一作。

共同一作蔡天樂,普林斯頓大學博士生,研究方向包括優化、表示學習、架構設計等,本科畢業于北京大學數學科學學院,獲得應用數學和計算機科學雙學位。

圖片

共同一作Yuhong (Jesse) Li,伊利諾伊大學香檳分校(UIUC)博士生,研究方向是高效機器學習,本科畢業于北京郵電大學。

圖片

此外,這項研究也有FlashAttention作者、斯坦福博士Tri Dao的參與。

FlashAttention是一種能加快注意力并減少內存占用的方法,相比PyTorch標準注意力實現,最高能提速9倍。

圖片

GitHub地址:https://github.com/FasterDecoding/Medusa

研究地址:https://sites.google.com/view/medusa-llm

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-07-17 09:21:12

Meta模型

2023-10-16 12:31:17

人工智能數據

2025-02-26 13:23:08

2021-11-19 10:13:01

模型人工智能計算

2023-04-13 13:24:38

OpenAI模型圖片

2023-06-30 13:01:26

2023-06-16 09:49:11

人工智能研究

2023-05-29 12:35:09

模型ChatGPT

2023-10-21 12:53:04

AI數據

2023-06-16 09:45:36

AI視頻

2023-11-16 15:58:00

訓練數據

2023-10-04 19:52:33

模型論文

2024-06-20 07:23:29

2024-10-28 07:20:00

AI模型

2024-02-07 12:37:23

模型數據

2024-04-23 13:37:00

數據訓練

2023-05-30 14:17:00

模型推理

2023-12-06 12:42:25

2021-09-13 09:49:37

開發方程函數

2023-12-11 15:40:32

PyTorch代碼大模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜精品一区 | 亚洲一区二区三区免费观看 | 一级毛片网| 国产黄色一级片 | 亚洲欧洲成人av每日更新 | 亚洲精品中文字幕在线观看 | 国产日韩av一区二区 | av电影手机在线看 | 久优草 | 在线国产一区 | 国产成人啪免费观看软件 | 国内在线视频 | 天天操天天射天天舔 | 男女视频免费 | 国产婷婷精品av在线 | 欧美电影一区 | 99日韩| 91人人在线 | 亚洲国产精品一区二区第一页 | 国产精品视频免费观看 | a级片网站| 在线播放国产一区二区三区 | 精品久久久一区 | 久久精品国产免费 | 欧美激情精品久久久久久 | 国产福利视频 | 黄色毛片网站在线观看 | 日韩欧美一级片 | 九九福利 | 亚洲精品久久久蜜桃 | 午夜欧美日韩 | 99亚洲综合 | 亚洲精品乱码久久久久久按摩 | 精品欧美一区二区精品久久久 | 精品粉嫩aⅴ一区二区三区四区 | 成人亚洲片| 国产精品揄拍一区二区久久国内亚洲精 | 日韩一区二区三区四区五区 | 91精品国产乱码久久蜜臀 | 91亚洲精品国偷拍自产在线观看 | 宅女噜噜66国产精品观看免费 |