成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新來的妹子不懂大模型中的token!已勸退...

發布于 2025-1-9 12:29
瀏覽
0收藏

?相信你只要了解過大模型,就聽過 token 這個詞兒,大家在用 ChatGPT 的 API 時,是按 token 計費的。

例如,你提問消耗了 100 token,ChatGPT 根據你的輸入,回答了 200 token,那么一共消費的 token 數就是 300。

有時候看一些偏技術的文章,一些模型后面帶著 8k、32k,甚至 100k,這也是指模型能處理的最大 token 長度。

既然 token 在大模型領域這么高頻出現,我們不禁要問:

  • 什么是 token?
  • 它是怎么計算的?
  • 一個 token 是指一個字嗎?
  • 中文和英文的 token 是一樣的嗎?

這篇文章我們就來聊聊這些問題,大模型中的"token"是指文本的最小處理單位,在大模型處理中,將文本劃分為 token 是對文本進行分析和處理的基本步驟之一。

通常情況下,一個 token 可以是一個單詞、一個標點符號、一個數字,或者是其他更小的文本單元,如子詞或字符。

以下是不同 token 切分類型的介紹:

(1)單詞級 token

即 token 是按照單詞進行劃分的。一個句子中的每個單詞通常都會成為一個獨立的 token。

例如,在句子"我是丁師兄"中,"我"、"是"、"丁師兄"分別是三個單詞級 token。

(2)標點符號級 token

除了單詞,標點符號通常也作為獨立的 token 存在。這是因為標點符號在語義和語法上都具有重要的作用。

例如,在句子"token 好理解嗎?"中,除了"token 好理解嗎"作為一個整體的 token 外,最后的問號"?"也是一個獨立的 token。

(3)子詞級 token

為了更好地處理復雜的語言情況,有時候將單詞進一步劃分為子詞級的 token。

例如,單詞"unhappiness"可以被劃分為子詞級token "un-"、"happiness"。

更復雜一點的,現在大模型比較流行的子詞級 token 還有字節對編碼(BPE),這也是 ChatGPT 官方采用的 token 編碼方法,它是通過合并出現頻繁的子詞對來實現的。

(4)字符級 token

在某些情況下,特別是在字符級別的處理任務中,文本會被劃分為字符級 token。這樣做可以處理字符級別的特征和模式。

例如,在句子"Hello!"中,"H"、"e"、"l"、"l"、"o"和"!"分別是六個字符級 token。

通過對文本做成一個一個的 token,LLM 模型能夠更好地理解和處理語言,從而實現任務如文本生成、機器翻譯、文本分類等。

因此,現在主流的大模型都會自帶一個 tokenizer,也就是自動將輸入文本解析成一個一個的 token,然后做編碼(就是查字典,轉換成數字),作為大模型真正的“輸入”。

最后,那么在 ChatGPT 中,一個 token 到底是多長?

下面是一些有用的經驗法則,可以幫助理解 token 的實際長度:對于英文文本,1 個 token 大約是 4 個字符或 0.75 個單詞。

通常來說,也就是 1000 個 Token 約等于 750 個英文單詞。對于中文,1000 個 Token 通常等于 400~500 個漢字。?

本文轉載自 ??丁師兄大模型??,作者: 丁師兄

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 午夜伦理影院 | 翔田千里一区二区 | 久久美女网 | 在线播放国产一区二区三区 | 成人日韩av| 久久亚洲综合 | 国产成人精品一区二区三区 | 日韩av成人 | 日本一区二区三区四区 | 一区二区免费在线观看 | 国产成人精品一区二区三区网站观看 | 亚洲精品国产精品国自产在线 | 亚洲精品视频免费观看 | av免费在线观看网站 | a视频在线| 四虎国产 | 久久久久久久久精 | 天天曰夜夜 | 国产剧情久久 | 欧美成视频 | 日屁网站| 久久久久久av | 中文在线一区二区 | 日韩在线三级 | 91久久精品一区二区三区 | 中文字幕色站 | 久夜精品 | 精品欧美乱码久久久久久1区2区 | 久久成人久久 | 国产精品视频一区二区三区 | 亚洲视频一区二区三区 | 国产精品毛片av | 日本精品视频在线观看 | 国产精品欧美一区二区三区 | 国产 欧美 日韩 一区 | 成人在线中文 | 亚洲成人一级 | 免费在线一区二区 | 成人a视频在线观看 | 久久久久一区二区三区四区 | 欧美日韩高清 |