成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

不用4個H100!340億參數Code Llama在Mac可跑,每秒20個token,代碼生成最拿手

人工智能 新聞
現在,34B Code Llama模型已經能夠在M2 Ultra上的Mac運行了,而且推理速度超過每秒20個token,背后殺器竟是「投機采樣」。

開源社區的一位開發者Georgi Gerganov發現,自己可以在M2 Ultra上運行全F16精度的34B Code Llama模型,而且推理速度超過了20 token/s。

圖片

畢竟,M2 Ultra的帶寬有800GB/s。其他人通常需要4個高端GPU才能做到!

而這背后真正的答案是:投機采樣(Speculative Sampling)。

Georgi的這一發現,瞬間引爆AI圈大佬的討論。

Karpathy轉發評論道,「LLM的投機執行是一種出色的推理時間優化」。

「投機采樣」加速推理

在這個例子中,Georgi借助Q4 7B quantum草稿模型(也就是Code Llama 7B)進行了投機解碼,然后在M2 Ultra上使用Code Llama34B進行生成。

簡單講,就是用一個「小模型」做草稿,然后用「大模型」來檢查修正,以此加速整個過程。

GitHub地址:https://twitter.com/ggerganov/status/1697262700165013689

根據Georgi介紹,這些模型的速度分別為:

- F16 34B:~10 token/s

- Q4 7B:~80 token/s

如下是沒有使用投機采樣,標準F16采樣示例:

然而,加入了投機采樣策略后,速度可達~20 token/s。

Georgi表示,當然,速度會因生成的內容而異。但這種方法在代碼生成方面似乎效果很好,因為大多數詞庫都能被草稿模型正確猜出。

如果使用「語法采樣」的用例也可能從中受益匪淺。

投機采樣能夠實現快速推理的背后具體如何實現?

Karpathy根據此前谷歌大腦、UC伯克利、DeepMind的三項研究,做出了解釋。

論文地址:https://arxiv.org/pdf/2211.17192.pdf

論文地址:https://arxiv.org/pdf/1811.03115.pdf

論文地址:https://arxiv.org/pdf/2302.01318.pdf

這取決于以下不直觀的觀察結果:

在單個輸入token上轉發LLM所需的時間,與在K個輸入token上批量轉發LLM所需的時間相同(K比你想象的要大)。

這個不直觀的事實是因為采樣受到內存的嚴重限制,大部分「工作」不計算,而是將Transformer的權重從VRAM讀取到芯片上緩存中進行處理。


因此,如果要完成讀取所有權重的工作,還不如將它們應用到整批輸入向量中。、

我們之所以不能天真地利用這一事實,來一次采樣K個token,是因為每N個token都取決于,我們在第N-1步時采樣的token。這是一種串行依賴關系,因此基線實現只是從左到右逐個進行。

現在,巧妙的想法是使用一個小而廉價的草稿模型,首先生成一個由K個token組成的候選序列——「草稿」。然后,我們將所有這些信息一起批量送入大模型。

根據上述方法,這與只輸入一個token的速度幾乎一樣快。

然后,我們從左到右檢查模型,以及樣本token預測的logits。任何與草稿一致的樣本都允許我們立即跳轉到下一個token。

如果有分歧,我們就會扔掉草稿模型,承擔做一些一次性工作的成本(對草稿模型進行采樣,并對后面的token進行前向傳遞)。

這在實踐中行之有效的原因是,大多數情況下,draft token都會被接受,因為是簡單的token,所以即使是更小的草稿模型也能接受它們。

當這些簡單的token被接受時,我們就會跳過這些部分。大模型不同意的困難token會「回落」到原始速度,但實際上因為有額外的工作會慢一些。

所以,總而言之:這一怪招之所以管用,是因為LLM在推理時是受內存限制。在「批大小為1」的情況下,對感興趣的單個序列進行采樣,而大部分「本地 LLM」用例都屬于這種情況。而且,大多數token都很「簡單」。

HuggingFace的聯合創始人表示,340億參數的模型在一年半以前的數據中心之外,看起來非常龐大和難以管理。現在是筆記本就可以搞定了。

現在的LLM并不是單點突破,而是需要多個重要組件有效協同工作的系統。投機解碼就是一個很好的例子,可以幫助我們從系統的角度進行思考。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-11-21 09:14:33

微軟Azure AI

2024-06-26 13:15:40

2024-03-13 13:36:57

Llama-3GPUAI

2023-09-26 14:21:33

模型開源Qwen-14B

2024-02-29 13:54:00

數據訓練

2023-11-03 11:08:03

PhindAI搜索工具

2024-12-30 12:35:24

2025-01-20 07:30:00

2024-03-15 08:30:00

AI數據

2024-03-15 09:00:00

2023-04-17 07:20:25

微軟Azure虛擬機

2025-03-25 11:42:41

2025-05-23 13:50:39

英偉達AI推理

2024-01-19 13:21:21

OpenAI人工智能AGI

2023-06-14 12:08:51

2024-10-22 18:07:43

LLMs開源大模型

2024-07-24 13:58:25

2025-02-27 13:45:00

2023-07-19 15:01:14

GPT-4LaMA2參數

2025-05-30 08:40:00

英偉達芯片AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产在线视频一区二区 | 天堂影院av | 黄色在线观看 | 欧美一级片中文字幕 | 国产精品久久久爽爽爽麻豆色哟哟 | 天天干天天玩天天操 | 欧美伦理一区 | 天天看夜夜 | 日韩和的一区二在线 | 自拍偷拍亚洲一区 | 男女视频在线看 | 四虎午夜剧场 | 国产精品毛片一区二区在线看 | 国产福利91精品一区二区三区 | 激情五月婷婷 | 久久久久亚洲av毛片大全 | 国产精品久久久久久福利一牛影视 | 超碰精品在线观看 | 国产精品区二区三区日本 | 日韩在线中文 | 国产精品国产馆在线真实露脸 | 免费av一区二区三区 | 亚洲欧美日韩精品久久亚洲区 | 中文在线一区 | 亚洲欧美综合精品久久成人 | 国产精品视频在 | 综合五月婷 | 欧美在线视频一区二区 | 99re视频在线观看 | 国产精品一区二区三区在线 | 日本视频中文字幕 | 亚洲成人精品久久 | 亚洲欧美激情精品一区二区 | 91精品久久久久久久久中文字幕 | 中文字幕免费在线观看 | 伊人网伊人 | 久久综合国产 | 97精品超碰一区二区三区 | 在线视频 中文字幕 | 久久国产精品网站 | 国产在线精品一区 |