成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

快3倍!Meta 違背經(jīng)典模型結(jié)構(gòu),一次預(yù)測(cè)多個(gè)token,路徑可行,大模型大幅提速指日可待! 原創(chuàng)

發(fā)布于 2024-5-7 14:24
瀏覽
0收藏

編譯|伊風(fēng)

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

眾所周知,LLMs的工作原理是對(duì)下一個(gè)token進(jìn)行預(yù)測(cè)。

讀者朋友們有沒有曾這樣想過:如果LLM一次預(yù)測(cè)n個(gè)token呢?那是不是就快n倍?Meta也是這樣想的!并且付諸實(shí)踐。

在最近的一項(xiàng)研究中,Meta、以及巴黎高科橋路學(xué)院和巴黎-薩克雷大學(xué)的研究人員建議,通過讓人工智能大型語言模型(LLMs)同時(shí)預(yù)測(cè)多個(gè)token,來提高大模型的準(zhǔn)確性和速度。

這個(gè)大膽的設(shè)想,跳出了自回歸語言模型的經(jīng)典結(jié)構(gòu)——一次僅僅預(yù)測(cè)一個(gè)token。

在某些領(lǐng)域,這一方法呈現(xiàn)了顯著的優(yōu)勢(shì),速度提高了三倍,生成任務(wù)的性能也更好!

雖然多標(biāo)記預(yù)測(cè)并不一定成為每種模型和語言任務(wù)的通用解決方案,且該方法還存在很大的改進(jìn)空間。但Meta的研究驗(yàn)證了該思路的可行性,這項(xiàng)技術(shù)可能讓某些LLM應(yīng)用大幅進(jìn)化,例如時(shí)下熱議的AI編程。         

1.只預(yù)測(cè)下一個(gè)token的局限性

訓(xùn)練LLMs的經(jīng)典方法是所謂的“下一個(gè)token預(yù)測(cè)”,這是一種自監(jiān)督學(xué)習(xí)技術(shù),模型被給予一系列token,并預(yù)測(cè)下一個(gè)。   

然后大模型會(huì)將預(yù)測(cè)的標(biāo)記添加到輸入中,并重復(fù)這個(gè)過程,一次一個(gè)token。通過在大量文本語料庫(kù)上一遍又一遍地這樣做,模型學(xué)習(xí)到一般模式,使其能夠輸出連貫的文本段落。

研究人員已經(jīng)研究并記錄了下一個(gè)標(biāo)記預(yù)測(cè)在獲取語言、世界知識(shí)和推理能力方面的局限性:例如,僅僅關(guān)注一個(gè)標(biāo)記,模型變得對(duì)局部模式過于敏感,忽略了需要對(duì)更長(zhǎng)視野進(jìn)行推理的預(yù)測(cè)。在下一個(gè)標(biāo)記預(yù)測(cè)上訓(xùn)練的模型還需要大量的數(shù)據(jù)才能達(dá)到人類用更少文本就能獲得的流暢度。

Meta的新研究正基于這樣的假設(shè):“訓(xùn)練語言模型一次預(yù)測(cè)多個(gè)token,可以提高樣本效率。”

2.新技術(shù):一次預(yù)測(cè)多個(gè)token

多標(biāo)記預(yù)測(cè)指示LLM從訓(xùn)練語料庫(kù)中的每個(gè)位置同時(shí)預(yù)測(cè)多個(gè)未來的token。研究人員提出了一個(gè)簡(jiǎn)單的多標(biāo)記預(yù)測(cè)架構(gòu),不需要額外的訓(xùn)練時(shí)間或內(nèi)存開銷。

多標(biāo)記預(yù)測(cè)語言模型基于大多數(shù)LLMs使用的Transformer架構(gòu),盡管有一些修改。模型使用Transformer的主要結(jié)構(gòu),雖然不再輸出單個(gè)token,但每個(gè)token都有獨(dú)立的輸出頭,每個(gè)要預(yù)測(cè)的標(biāo)記一個(gè)。   

快3倍!Meta 違背經(jīng)典模型結(jié)構(gòu),一次預(yù)測(cè)多個(gè)token,路徑可行,大模型大幅提速指日可待!-AI.x社區(qū)圖片

在推理過程中,模型使用每個(gè)預(yù)測(cè)頭去做基本的下一個(gè)token預(yù)測(cè)方案,并使用額外的輸出頭來加速解碼過程。該模型綜合利用了該領(lǐng)域中的幾項(xiàng)相關(guān)的成果。

“在不增加額外成本且保持簡(jiǎn)單的同時(shí),多標(biāo)記預(yù)測(cè)是對(duì)訓(xùn)練更強(qiáng)大、更快的Transformer模型的有效調(diào)整,”研究人員寫道。

3.多標(biāo)記預(yù)測(cè)技術(shù)的改進(jìn)效果

研究人員在300百萬到130億參數(shù)的各種任務(wù)上測(cè)試了新的多標(biāo)記預(yù)測(cè)方案。

他們的發(fā)現(xiàn)包括幾個(gè)有趣的觀測(cè)結(jié)果。例如,在較小的模型上,多標(biāo)記預(yù)測(cè)會(huì)導(dǎo)致更差的結(jié)果,但隨著模型大小的增加,它變得越來越有用。例如,在訓(xùn)練4個(gè)標(biāo)記預(yù)測(cè)時(shí),6.7億和130億參數(shù)的模型在MBPP編碼基準(zhǔn)測(cè)試上比基線單標(biāo)記預(yù)測(cè)提高了幾個(gè)百分點(diǎn)。“在相同的計(jì)算預(yù)算下,使用多標(biāo)記預(yù)測(cè),可以在固定數(shù)據(jù)集上從大型語言模型中擠出更多的性能,”研究人員寫道。   

根據(jù)研究人員的說法,多標(biāo)記預(yù)測(cè)還使模型在跨廣泛批量大小的推理時(shí)間上快了多達(dá)三倍。“使用多標(biāo)記預(yù)測(cè)進(jìn)行預(yù)訓(xùn)練,額外的頭部(Head)比簡(jiǎn)單的下一個(gè)標(biāo)記預(yù)測(cè)模型的微調(diào)更準(zhǔn)確,我們讓模型可以釋放自我推測(cè)解碼的全部潛力,”研究人員寫道。

該研究還表明,多標(biāo)記預(yù)測(cè)促進(jìn)了學(xué)習(xí)長(zhǎng)期模式,特別是在模型被訓(xùn)練在“字節(jié)級(jí)標(biāo)記化”(byte-level tokenization)上的實(shí)驗(yàn)中,其中每個(gè)字節(jié)都被視為一個(gè)單獨(dú)的標(biāo)記。在這些實(shí)驗(yàn)中,多字節(jié)預(yù)測(cè)以很大的優(yōu)勢(shì)超過了基線單字節(jié)預(yù)測(cè)模型。

這對(duì)于沒有預(yù)定義詞匯表并且模型必須學(xué)習(xí)使用非常小的信息塊的應(yīng)用尤其重要。

多標(biāo)記預(yù)測(cè)仍有改進(jìn)空間。例如,要預(yù)測(cè)的標(biāo)記的最優(yōu)數(shù)量取決于任務(wù)類型和模型大小。科學(xué)家們正在考慮多個(gè)未來的研究方向,包括自動(dòng)選擇要預(yù)測(cè)的標(biāo)記的最優(yōu)數(shù)量的技術(shù),以及研究詞匯表大小和多標(biāo)記預(yù)測(cè)之間的動(dòng)態(tài)。

這項(xiàng)研究及其未來的迭代可能對(duì)企業(yè)應(yīng)用有用,因?yàn)樗鼈冇袧摿樯扇蝿?wù)(如代碼完成)提供更快的推理和更高的準(zhǔn)確性,而幾乎沒有或沒有額外的成本。由于它還保留了大部分LLM架構(gòu),因此可以與Transformer塊的其他優(yōu)化技術(shù)兼容,具備很強(qiáng)的迭代潛力。

參考鏈接:??https://venturebeat.com/ai/metas-new-multi-token-prediction-makes-ai-models-up-to-3x-faster/??

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产成人免费在线 | 成年人精品视频在线观看 | 99成人在线视频 | 欧美精品一区二区三区四区 在线 | 国产成人综合在线 | 久久亚洲一区二区三 | 国产成人精品亚洲日本在线观看 | 久久久www成人免费无遮挡大片 | 91中文字幕在线观看 | 久久网站免费视频 | 国产精品无码专区在线观看 | 国产偷录视频叫床高潮对白 | 在线成人免费观看 | 亚洲男人天堂 | xx视频在线观看 | 国产精品久久久久久二区 | 国产精品无码专区在线观看 | 99pao成人国产永久免费视频 | 99热精品在线 | 亚洲高清av在线 | 99精品免费久久久久久日本 | 国产精品精品视频一区二区三区 | 久久出精品 | 一区二区视频在线 | 在线免费亚洲视频 | 久久不射网| av综合站| 日韩精品在线观看一区二区三区 | 日韩久久久久久 | 久久国产精品一区二区三区 | 日韩在线中文 | 日韩精品 | 国产欧美一区二区在线观看 | 日韩精品成人 | 亚洲3p| 在线观看视频中文字幕 | 国产欧美精品一区二区色综合朱莉 | 欧美一区二区三区视频在线观看 | 色狠狠一区| 亚洲狠狠 | www国产亚洲精品 |