成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta公布BLT新架構:告別token,擁抱patch

譯文 精選
人工智能
未來的語言模型可能不再需要僵化的標記化機制。通過以動態方式直接處理字節,我們或將構建起效率更高、更善于處理人類語言復雜要素的新一代大模型。

譯者 | 核子可樂

審校 | 重樓

Meta發布的BLT架構為大模型擴展找到又一條出路,也開啟了用patch方法取代token的全新可能性。

開篇先提問:我們為什么非得把文本拆分成token?直接用原始字節怎么就不行?

要回答這個問題,我們得先從大語言模型的文本處理方式入手。它們需要用關于常用詞塊的規則將文本拆分成一個個token,而這個標記化過程也一直面臨質疑。無論模型的其余部分在訓練期間如何學習和適應,標記化階段的初始規則都始終保持不變。因此一旦相關語言的訓練數據不足、或者訓練素材的文本格式比較特殊,大模型的處理能力就將大打折扣。

Meta提出的全新字節級標記化(BLT)架構則采用一種完全不同的方法。它不再預先定義token,而是查看文本的原始字節,并根據其可預測程度以動態方式對各字節進行分組。如果下一字節的可預測度極高(例如可補全為一個常用詞),該架構就會將更多字節組合起來;而當下一字節不可預測(例如開始另一新句),則將字節劃入多個較小的組。

使用固定推理預算進行訓練時,模型的擴展趨勢

傳統基于token的模型(例如Llama 2和3)會根據推理預算對模型大小進行縮放。相比之下,BLT架構則能夠在同等預算條件下,同時縮放模型大小與patch大小。patch大小為6和8的BLT模型在性能上迅速超越了Llama 2和3。而在使用更高推理預算時,較大的patch大?。ɡ?)則對應更佳性能和更高計算效率。上圖中的垂直線所示,為計算效率與性能表現的關鍵交匯點。

這種動態方法具備以下三大核心優勢:

第一,它在性能方面足以比肩Llama 3等基于標記器的頂尖模型,同時以較低的性能損失換取高達50%的推理次數削減。更高的計算效率,意味著該模型能夠以更低資源需求處理文本中的可預測部分。

第二,它能夠更好地處理極端情況。以需要字符級理解的任務為例,包括糾正拼寫錯誤或處理較為凌亂的文本,BLT在這些任務上的表現明顯優于基于token的模型,原因就在于它可以直接訪問并操作單個字符。

第三,它引入了一種新的語言模型擴展方法。在基于標記器的傳統模型中,擴展工作往往面臨一定限制。而BLT架構允許同時增加模型大小和字節組的平均大小,同時保持計算預算不變。這就為構建更高效的大模型開辟了新的可能性。

BLT各核心組件

要了解BLT在實踐中的工作原理,需從以下三大核心組件入手:

1. 輕量級本地編碼器,負責處理原始字節并根據其可預測性進行分組。

2. 大型Transformer,負責處理各字節組(即「patch」)。

3. 輕量級本地解碼器,負責將patch表示轉換回字節。

BLT架構包含三大主要模塊:輕量級本地編碼器,負責將輸入字節轉換為patch形式;Latent Transformer,負責處理各patch;輕量級本地解碼器,用于生成下一個字節patch。BLT使用字節n-gram嵌入與交叉注意力以增強Latent Transformer與字節級模塊之間的信息流。與固定詞匯標記化不同,BLT會將字節動態分組為patch,從而保持對字節級信息的訪問能力。

架構中基于熵的分組機制特別值得一提。BLT使用小語言模型實現了令人驚喜的下一字節預測效果。一旦遇到很難預測的字節(例如新單詞的開頭),BLT會創建一個邊界并開啟新的ptach。這樣它就能將更多計算資源用于處理文中最具挑戰性的部分,同時高效處理難度較低的部分。

以下結果令人眼前一亮。在標準基準測試中,BLT的性能已經追平甚至超越了Llama 3,而且在需要字符級理解的任務方面尤其出彩。以測試字符操作的CUTE基準測試為例,BLT的表現比基于token的模型高出25分以上——相應訓練數據則僅相當于最新Llama模型的十六分之一。

8B BLT模型與8B BPE Llama 3的比對結果。二者均使用1T token訓練而成,測試內容為針對噪聲及語言結構的穩健性任務。單項最佳結果以粗體標出,整體最佳結果(包括Llama 3.1)則以下劃線標出。很明顯,BLT在多項任務上的表現均優于Llama 3,甚至超越Llama 3.1。這表明字節級感知具備暴力堆砌訓練數據所難以實現的優勢。

由此看來,未來的語言模型可能不再需要僵化的標記化機制。通過以動態方式直接處理字節,我們或將構建起效率更高、更善于處理人類語言復雜要素的新一代大模型。

原文標題:Bye Tokens, Hello Patches,作者:Mike Young

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2024-07-09 13:06:52

2024-12-17 10:40:26

2018-12-17 09:57:11

服務器LinuxBoot開源

2025-06-04 13:53:57

AI模型Meta

2020-07-10 10:48:01

基礎架構

2015-10-08 13:48:00

Cocos引擎

2015-06-11 10:19:18

新聞熱點

2023-11-24 12:36:00

模型訓練

2024-09-18 00:15:58

2018-07-25 11:53:39

IBM業務永續人機融合

2015-06-23 10:53:30

互聯網+華三通信

2021-09-03 10:45:12

量子計算芯片超算

2015-11-27 14:38:46

中國軟件資訊網

2010-10-22 14:43:09

移動開發

2024-05-20 15:19:25

訓練模型

2024-03-11 04:00:00

C#除List遍歷

2015-04-16 16:05:25

博科/網絡建設

2016-04-28 16:57:07

AWS

2023-08-07 15:13:28

VR模型

2014-09-25 21:53:30

戴爾
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美一区视频 | 精品久久久999 | 亚洲一区在线日韩在线深爱 | 日韩午夜精品 | 亚洲一区二区av在线 | 国产精品视频 | 欧美一级淫片007 | 亚洲精品乱码久久久久久久久 | 精品国产一区二区在线 | 色视频在线播放 | 国产精品久久久久久久久久免费看 | 99亚洲国产精品 | 精品国产黄a∨片高清在线 成人区精品一区二区婷婷 日本一区二区视频 | 99视频免费看| 国产美女免费视频 | 国产精品久久久久久久久久久久 | 欧美视频免费 | 秋霞av国产精品一区 | 亚洲精品一区国语对白 | 久久久天堂 | 久久精品在线播放 | 日韩免费视频一区二区 | 国产一区视频在线 | 国产日韩欧美一区二区 | 国产小u女发育末成年 | 日日操日日干 | 国产精品久久99 | 精品欧美二区 | 在线免费观看a级片 | 久久99这里只有精品 | 在线播放一区二区三区 | 天天干天天干 | 自拍 亚洲 欧美 老师 丝袜 | 黄色成人免费在线观看 | 91免费在线看 | 国产黄色在线观看 | 午夜激情视频在线 | 黄色片免费看 | 黄色一级免费 | 天天操操操操操 | 欧美国产精品一区二区三区 |