一次預測多個token，Meta新模型推理加速3倍，編程任務提高17%

Crystalcxt

發(fā)布于 2024-5-6 09:28

瀏覽

0收藏

“預測下一個token”被認為是大模型的基本范式，一次預測多個tokens又會怎樣？

Meta AI法國團隊推出“基于多token預測的更快&更好大模型”。

一次預測多個token，Meta新模型推理加速3倍，編程任務提高17%-AI.x社區(qū)

多token預測模型，在編程類任務上表現(xiàn)尤其突出。

與單token預測相比，13B參數(shù)模型在HumanEval上多解決了12%的問題，在MBPP上多解決了17%。

一次預測多個token，Meta新模型推理加速3倍，編程任務提高17%-AI.x社區(qū)

小型算法推理任務上，多token預測也在分布外泛化方面帶來了令人印象深刻的收益。

一次預測多個token，Meta新模型推理加速3倍，編程任務提高17%-AI.x社區(qū)

不過在自然語言任務上，多token預測方法并不能顯著提高7B模型在數(shù)學選擇題上的表現(xiàn)了。

一次預測多個token，Meta新模型推理加速3倍，編程任務提高17%-AI.x社區(qū)

另外一個好處是，即使batch size較大，使用4-token預測訓練的模型，推理速度也可提高3倍。

多token預測更適合編程

具體來說，團隊設計了一種新的多token預測架構，通過n個獨立的輸出頭并行預測n個未來token。

使用大量文本數(shù)據(jù)進行模型訓練，包括代碼和自然語言數(shù)據(jù)集。

再通過實驗比較多token預測和單token預測在多個下游任務上的性能。

一次預測多個token，Meta新模型推理加速3倍，編程任務提高17%-AI.x社區(qū)

為啥多token預測在編程任務和小型算法推理任務上提升更明顯？

團隊猜測可能有兩個原因:

第一，編程語言的邏輯結構更嚴謹，知識的內在聯(lián)系更緊密。一個關鍵節(jié)點可能影響到后續(xù)整個代碼塊的走向。多Token預測能更好捕捉這種長距離依賴。

第二，相比自然語言，編程語言的詞匯量更小。因此即便每次預測多個Token，難度也沒那么大。反而能迫使模型從局部細節(jié)中抽身，著眼全局優(yōu)化。

一次預測多個token，Meta新模型推理加速3倍，編程任務提高17%-AI.x社區(qū)

除了在token層面的實驗，團隊還在更細粒度的字節(jié)級模型上做了嘗試。

他們發(fā)現(xiàn)，用8字節(jié)預測替代下一個字節(jié)預測后，模型在MBPP上的Pass@1指標暴增67%，在HumanEval上也提升了20%。

而且推理速度還能再快6倍，簡直不要太香。

一次預測多個token，Meta新模型推理加速3倍，編程任務提高17%-AI.x社區(qū)

對于背后原理，團隊認為多token預測緩解了訓練時Teacher Forcing和推理時自回歸生成之間的分布差異。

也就是說，在訓練的時候，模型看到的都是標準答案，生成的時候卻得靠自己。好比人類在家做練習冊時有答案，考試時卻啥也沒有，就會不適應。

而多token預測相當于訓練時就逼著模型多想幾步，這樣到了考場上，才能應對自如。

從信息論的角度，團隊還給出了一個更精確的論證。

傳統(tǒng)的下一個Token預測，目標是最小化當前位置的信息熵。而2-Token預測實際上最小化的是當前和下一位置的信息熵之和。

數(shù)學推導表明，后者其實隱含了更大的互信息權重，也就是更看重當前Token和未來Token的相關性。這就是為什么多Token預測更”有遠見”。

不過在這篇論文中，還有幾個未解決的問題。

比如沒有探討如何自動選擇最佳的預測token數(shù)量n，作者提出，未來可以研究使用損失權重調整或動態(tài)調整n來解決最佳n的選擇問題。

此外最佳的詞表大小也可能與單token預測時不同。

總之，看過這篇論文之后，大家都更期待Llama-4了。

一次預測多個token，Meta新模型推理加速3倍，編程任務提高17%-AI.x社區(qū)

論文地址：???https://arxiv.org/abs/2404.19737??

本文轉自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/GuIqBdj4MteR9eBlTesdBA?poc_token=HKExOGajTyMBxP3FMXkCt7skHNxyXVBljVHxyLI-??

標簽

模型

推理

贊

回復

舉報

回復

相關推薦

快3倍！Meta 違背經(jīng)典模型結構，一次預測多個token，路徑可行，大模型大幅提速指日可待！

51CTO技術棧 ? 3016瀏覽 ? 0回復
Meta最新成果：前所未有的加速Emu推理 | Imagine Flash：新型蒸餾框架發(fā)布

angel ? 2941瀏覽 ? 0回復
KubeAI大模型推理加速實踐

卓勝微wjp ? 3445瀏覽 ? 0回復
LoRA數(shù)學編程任務不敵全量微調 | 哥大&Databricks新研究

Crystalcxt ? 2910瀏覽 ? 0回復
Meta等最新研究：多token預測，提升大模型推理效率

Aceryt ? 4082瀏覽 ? 0回復
next-token被淘汰！Meta實測「多token」訓練方法，推理提速3倍，性能大漲10%+

duhorse ? 3361瀏覽 ? 0回復
AI技術新前沿本地LLM模型推理訓練加速

AIGC觀察者 ? 3531瀏覽 ? 0回復
TensorRT模型推理加速實踐

zhcs333 ? 4474瀏覽 ? 0回復
Meta最新成果：前所未有的加速Emu推理 | Imagine Flash：新型蒸餾框架發(fā)布

angel ? 2228瀏覽 ? 0回復
記一次關于人工智能應用方向的面試以及帶來的思考

AI探索時代 ? 2534瀏覽 ? 0回復
不走尋常路的面壁智能，又一次“掀桌子”了！

51CTO技術棧 ? 2526瀏覽 ? 0回復
科普神文，一次性講透AI大模型的核心概念

ermulong ? 3241瀏覽 ? 0回復
OpenAI 發(fā)布新模型 o1，能夠推理復雜任務，在科學、編程和數(shù)學等領域更牛

AI洞察Insight ? 2626瀏覽 ? 0回復
記一次ComfyUI工作流bug查找過程

AI探索時代 ? 2985瀏覽 ? 0回復
Meta AI發(fā)布全新量化版本Llama 3.2（1B & 3B）：推理速度提升2-4倍，模型大小減少56%

Halo咯咯 ? 2696瀏覽 ? 0回復
一次多模態(tài)大模型表格識別解析探索小實踐記錄

大模型自然語言處理 ? 2765瀏覽 ? 0回復
Meta公布BLT新架構：告別token，擁抱patch

51CTO內容精選 ? 1958瀏覽 ? 0回復
Model2Vec：RAG 加速新引擎，模型瘦身15倍，速度提升500倍，最新emb benchmark

鴻煊的學習筆記 ? 2845瀏覽 ? 0回復
阿里Qwen3一夜封神！開源模型跑出3倍推理速度，OpenAI沉默

AI博物院 ? 2872瀏覽 ? 0回復

Crystalcxt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

一次預測多個token，Meta新模型推理加速3倍，編程任務提高17%

多token預測更適合編程

目錄