成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<rt id="icweu"><tr id="icweu"></tr></rt>

<rt id="icweu"></rt>

<code id="icweu"><wbr id="icweu"></wbr></code>

<code id="icweu"></code>

<button id="icweu"></button>

<nav id="icweu"><dl id="icweu"></dl></nav>

<rt id="icweu"></rt>

<li id="icweu"><input id="icweu"></input></li>

<abbr id="icweu"></abbr>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

優雅談大模型：Token與分詞方法

發布于 2024-12-25 12:22

瀏覽

0收藏

1.Token

在繼續前行之前，需要先停下來澄清下Token這個詞，以及如何將原始的語料轉化為Token，在細究背后的原理之后會更加優雅的理解大模型。任何的資訊都可以生成語料，而這些語料需要被機器理解以及供后續的模型訓練，那么最常見的做法是將一段文字先切片，然后一一對應的轉化為數字或者向量輸入模型。通常而言有三種類型的分詞法：基于單詞、字符以及子詞的分詞法。單詞和字符這里就不解釋，字詞法運用得最為廣泛，也是最為主流。字詞分詞法包含了BPE、WordPiece、Unigram等。GPT等主流大模型也是采用BPE的分詞法。

優雅談大模型：Token與分詞方法-AI.x社區圖片

優雅談大模型：Token與分詞方法-AI.x社區

先從個列子開始以GPT-3.5為例，輸入“I must read lubanmochui, it's professional.”，下圖則表明整句話一共43個字符，按照不同的顏色塊被切分成13份（Token）。而且每個Token都有與之對應的id。然后輸入中文的時候，發現24個字符卻被切成了30個Token。

優雅談大模型：Token與分詞方法-AI.x社區

按照常識，中文不是應該一個字一個Token。因為這里舉的例子是GPT，一個多語言模型，它覆蓋了國際很多種語言。但是它并沒有特殊的針對中文做適配，因此它采用了一種辦法，將中文轉為unicode，然后在按照英文的體系去切分，所以會看到有些切塊是“？”的字符。其實這樣一來，整體效率降低了，而且代價巨大，畢竟收費是基于Token數。

2.分詞方法

BPE、WordPiece、SentencePiece等方法的技術專業性的詳細拆解后續可以參見??《大模型背后的基礎模型》??這個專欄。

優雅談大模型：Token與分詞方法-AI.x社區

各種分詞法對比，各種分詞法都是基于大的詞匯庫然后按照特定的算法進行學習切分。BPE是貪婪而且是確定的，SentencePiece是可以針對同一個字符串進行反復的抽樣。

BPE（Byte Pair Encoding）自于論文《Neural Machine Translation of Rare Words with Subword Units》。它是一種基于頻率的分詞方法，它從一個完整的詞匯表開始，迭代地合并出現頻率最高的字符對，直到預定的詞匯表規模。例如：“I love lubanmochui.” 使用BPE分詞法，首先將每個單詞分割成字符，然后合并最常見的字符對。也許“love”會變成“lo”和“ve”，因為“lo”和“ve”在整個語料庫中頻繁出現。英語中“un”、“est”、“less”也經常被單獨提煉出來。

WordPiece來至論文《Japanese and korean voice search》，和BPE一樣在合并字符時除了考慮出現的頻率，還考慮了合并后的token對整體語言模型的貢獻，某種意義是基于概率的分詞法。畢竟有些名詞，例如針對蔬菜名合并和切分的意義不大，保留詞匯的原始意義是最優的選擇。

SentencePiece來至論文《Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates》。它是谷歌推出的子詞開源工具包，其中集成了BPE、ULM子詞算法。除此之外，SentencePiece還能支持字符和詞級別的分詞。為了能夠處理多語言問題，SentencePiece將句子視為Unicode編碼序列，從而子詞算法不用依賴于語言的表示。

3.HuggingFace Tokenizer

HuggingFace（重量級的大模型社區）的介紹會放在后續，這里主要介紹下HuggingFace提供的Tokenizer的庫。在HuggingFace里面它對于輸入文本的處理流程（黃色部分）如下圖所示，粉色則為處理的輸出結果。

注意：

GPT, GPT-2, RoBERTa, BART, DeBERTa 等模型使用了 BPE，其中 GPT-2 使用了 byte-level BPE 。

BERT,DistilBERT,MobileBERT,Funnel Transformers,MPNET等模型使用了WordPiece。Hugging Face中的實現是基于已發表文獻的模擬。

AlBERT,T5,mBART,Big Bird,XLNet等模型使用了 Unigram。

Normalization：標準化步驟，包括一些常規清理，例如刪除不必要的空格、小寫、以及刪除重音符號
Pre-tokenization：tokenizer 不能單獨在原始文本上進行訓練。相反，我們首先需要將文本拆分為小的單元，例如單詞。這就是pre-tokenization 步驟。基于單詞的tokenizer可以簡單地基于空白和標點符號將原始文本拆分為單詞。這些詞將是tokenizer在訓練期間可以學習的子詞邊界
Model：執行tokenization從而生成token序列
Postprocessor：針對具體的任務插入special token，以及生成attention mask和token-type ID

本文轉載自 ??魯班模錘??，作者：龐德公

標簽

贊

收藏

回復

舉報

回復

相關推薦

今日arXiv最熱NLP大模型論文：逆向解析Sora背后的秘密，談AI視頻的機遇與挑戰

pangguiyu ? 3246瀏覽 ? 0回復
專治大模型說胡話，精確率100%！華科等提出首個「故障token」檢測/分類方法

duhorse ? 2426瀏覽 ? 0回復
Meta等最新研究：多token預測，提升大模型推理效率

Aceryt ? 4082瀏覽 ? 0回復
next-token被淘汰！Meta實測「多token」訓練方法，推理提速3倍，性能大漲10%+

duhorse ? 3361瀏覽 ? 0回復
優雅談大模型：揭開計算機視覺任務神秘面紗

魯班模錘1 ? 3077瀏覽 ? 0回復
優雅談大模型：“System2”與“System 1”

魯班模錘1 ? 4511瀏覽 ? 0回復
優雅談大模型：Python編程篇

魯班模錘1 ? 2797瀏覽 ? 0回復
優雅談大模型：LangChain Vs. LlamaIndex

魯班模錘1 ? 3077瀏覽 ? 0回復
不要沉迷大模型的技術與理論，學習大模型的方法——從做一個小應用開始

AI探索時代 ? 2834瀏覽 ? 0回復
解讀AI大模型，從了解token開始

ermulong ? 3284瀏覽 ? 0回復
優雅談大模型：白話ZeRO 上

魯班模錘1 ? 2358瀏覽 ? 0回復
解讀AI大模型，從了解token開始

ermulong ? 2293瀏覽 ? 0回復
優雅談大模型：一文讀懂LoRA/DoRA/MoRA

魯班模錘1 ? 4002瀏覽 ? 0回復
優雅談大模型：神經網絡與矩陣

魯班模錘1 ? 2491瀏覽 ? 0回復
LLM合集：微軟開源新一代視頻token化方法VidTok，打造高性能視頻Token化解決方案

AIPaperDaily ? 2467瀏覽 ? 0回復
新來的妹子不懂大模型中的token！已勸退...

丁師兄大模型 ? 5520瀏覽 ? 0回復
三種文本相似計算方法：規則、向量與大模型裁判

AI悠閑區 ? 2776瀏覽 ? 0回復
三種文本相似計算方法：規則、向量與大模型裁判

AI悠閑區 ? 2553瀏覽 ? 0回復
AI的未來：Bill Dally與Yann LeCun談計算驅動與世界模型的突破

chengganfei ? 1833瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

ALPHAONE：從快到慢，還是從慢到快 1天前發布
Meta AI發布革命性V-JEPA 2 2025-06-15 23:41:42發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：奇思妙想：多頭RAG

下一篇：新鮮速遞：圖解新穎LLM的CoPE位置編碼

社區精華內容

目錄

主站蜘蛛池模板：日韩欧美在线观看 | 美女一区二区在线观看 | 国产极品粉嫩美女呻吟在线看人 | 欧美一区二区三区大片 | 毛片综合| 91国内在线观看 | 成年人的视频免费观看 | 天天综合久久 | 久久国产精彩视频 | 爱爱视频网 | 亚洲精品第一国产综合野 | 欧美一级久久 | 91精品国产麻豆 | 日韩最新网站 | 亚洲成人一级 | 啪啪精品 | 99精品久久久 | 日韩视频在线播放 | 日韩www视频| 精品一二三| 一级午夜aaa免费看三区 | 午夜欧美日韩 | 亚洲五码在线 | 国产一区2区| 欧美一区二区三 | 中文字幕第三页 | 亚洲视频在线观看一区二区三区 | 99精品99| 成人特区| 国产一区2区 | 国内自拍视频在线观看 | 可以在线看的黄色网址 | 一区二区高清在线观看 | 久久久久国产精品午夜一区 | 成人综合一区 | 范冰冰一级做a爰片久久毛片 | 精品99爱视频在线观看 | 亚洲欧洲一区二区 | 日韩精品成人免费观看视频 | 欧美精品1区2区 | 国产高清精品在线 |

<samp id="uuasa"><input id="uuasa"></input></samp>

<dl id="uuasa"><acronym id="uuasa"></acronym></dl>

<button id="uuasa"></button><samp id="uuasa"><tbody id="uuasa"></tbody></samp>