新來的妹子不懂大模型中的token！已勸退...

丁師兄大模型

發布于 2025-1-9 12:29

瀏覽

0收藏

?相信你只要了解過大模型，就聽過 token 這個詞兒，大家在用 ChatGPT 的 API 時，是按 token 計費的。

例如，你提問消耗了 100 token，ChatGPT 根據你的輸入，回答了 200 token，那么一共消費的 token 數就是 300。

有時候看一些偏技術的文章，一些模型后面帶著 8k、32k，甚至 100k，這也是指模型能處理的最大 token 長度。

既然 token 在大模型領域這么高頻出現，我們不禁要問：

什么是 token？
它是怎么計算的？
一個 token 是指一個字嗎？
中文和英文的 token 是一樣的嗎？

這篇文章我們就來聊聊這些問題，大模型中的"token"是指文本的最小處理單位，在大模型處理中，將文本劃分為 token 是對文本進行分析和處理的基本步驟之一。

通常情況下，一個 token 可以是一個單詞、一個標點符號、一個數字，或者是其他更小的文本單元，如子詞或字符。

以下是不同 token 切分類型的介紹：

（1）單詞級 token

即 token 是按照單詞進行劃分的。一個句子中的每個單詞通常都會成為一個獨立的 token。

例如，在句子"我是丁師兄"中，"我"、"是"、"丁師兄"分別是三個單詞級 token。

（2）標點符號級 token

除了單詞，標點符號通常也作為獨立的 token 存在。這是因為標點符號在語義和語法上都具有重要的作用。

例如，在句子"token 好理解嗎？"中，除了"token 好理解嗎"作為一個整體的 token 外，最后的問號"？"也是一個獨立的 token。

（3）子詞級 token

為了更好地處理復雜的語言情況，有時候將單詞進一步劃分為子詞級的 token。

例如，單詞"unhappiness"可以被劃分為子詞級token "un-"、"happiness"。

更復雜一點的，現在大模型比較流行的子詞級 token 還有字節對編碼（BPE），這也是 ChatGPT 官方采用的 token 編碼方法，它是通過合并出現頻繁的子詞對來實現的。

（4）字符級 token

在某些情況下，特別是在字符級別的處理任務中，文本會被劃分為字符級 token。這樣做可以處理字符級別的特征和模式。

例如，在句子"Hello!"中，"H"、"e"、"l"、"l"、"o"和"!"分別是六個字符級 token。

通過對文本做成一個一個的 token，LLM 模型能夠更好地理解和處理語言，從而實現任務如文本生成、機器翻譯、文本分類等。

因此，現在主流的大模型都會自帶一個 tokenizer，也就是自動將輸入文本解析成一個一個的 token，然后做編碼（就是查字典，轉換成數字），作為大模型真正的“輸入”。

最后，那么在 ChatGPT 中，一個 token 到底是多長？

下面是一些有用的經驗法則，可以幫助理解 token 的實際長度：對于英文文本，1 個 token 大約是 4 個字符或 0.75 個單詞。

通常來說，也就是 1000 個 Token 約等于 750 個英文單詞。對于中文，1000 個 Token 通常等于 400～500 個漢字。?

本文轉載自 ??丁師兄大模型??，作者：丁師兄

標簽

ChatGPT

token

字符

贊

回復

舉報

回復

相關推薦

Meta等最新研究：多token預測，提升大模型推理效率

Aceryt ? 4111瀏覽 ? 0回復
【LLM】大語言模型在用戶興趣探索中的應用

sbf_2000 ? 4376瀏覽 ? 0回復
這就是大語言模型！ | 一文梳理LLM中的核心概念

angel ? 4840瀏覽 ? 0回復
LG開源韓語大模型Exaone 3.0，8萬億token訓練數據

Aceryt ? 2584瀏覽 ? 0回復
大語言模型實踐中的挑戰與應對

sbf_2000 ? 2657瀏覽 ? 0回復
ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略

輕薄滴假象 ? 2268瀏覽 ? 0回復
解讀AI大模型，從了解token開始

ermulong ? 3296瀏覽 ? 0回復
關于大模型在企業生產環境中的獨立部署問題

AI探索時代 ? 2984瀏覽 ? 0回復
大語言模型中自我發現的蘇格拉底方法

AIGC最前線 ? 3015瀏覽 ? 0回復
解讀AI大模型，從了解token開始

ermulong ? 2304瀏覽 ? 0回復
大模型技術的重點與難點，以及在實際操作中需要注意的事項

AI探索時代 ? 5641瀏覽 ? 0回復
大語言模型評測中的評價指標：方法、基準和最佳實踐

芝士AI吃魚 ? 9479瀏覽 ? 0回復
AI大模型在GIS中的應用

zhishan15 ? 4862瀏覽 ? 0回復
再談大模型長文本分塊，以及分塊在RAG中的作用？

AI探索時代 ? 3681瀏覽 ? 0回復
優雅談大模型：Token與分詞方法

魯班模錘1 ? 3021瀏覽 ? 0回復
僅128個token達到ImageNet生成SOTA性能！MAETok:有效的擴散模型的關鍵是什么？(卡內基梅隆&港大等)

angel ? 2160瀏覽 ? 0回復
大模型在零樣本面部情緒標注中的突破與應用

xuxiangda ? 2789瀏覽 ? 0回復
QuantAgent：通過自我改進的大語言模型尋找交易中的圣杯

靈度智能 ? 1754瀏覽 ? 0回復
從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題

AI博物院 ? 4793瀏覽 ? 0回復

丁師兄大模型

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

新來的妹子不懂大模型中的token！已勸退...

（1）單詞級 token

（2）標點符號級 token

（3）子詞級 token

（4）字符級 token

目錄