成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<li id="uqyiw"><tbody id="uqyiw"></tbody></li>

<code id="uqyiw"><xmp id="uqyiw"></xmp></code>

<code id="uqyiw"></code><dl id="uqyiw"><tr id="uqyiw"></tr></dl>

<rt id="uqyiw"></rt>

<cite id="uqyiw"><acronym id="uqyiw"></acronym></cite>

<rt id="uqyiw"></rt>

<abbr id="uqyiw"><source id="uqyiw"></source></abbr>

<center id="uqyiw"></center>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

灣區大神Beren Millidge：整數tokenization是瘋狂的！原創

發布于 2024-5-7 09:52

瀏覽

0收藏

在與語言模型花費了很多時間后，我得出結論，總的來說，tokenization普遍來說是瘋狂的，語言模型能學到任何東西都是一個奇跡。為了深入探討最近一直困擾我的一個愚蠢的例子，讓我們看一下GPT2分詞器（據我所知，GPT3也使用相同的分詞器）是如何對整數進行tokenization的。整數的tokenization是學習和表示數學事實的最基本要素，最終，所有GPT的數學能力都必須建立在這個基礎上。

主要問題在于，這個分詞器沒有以十進制或者任何連貫的格式來表示數字。理想的十進制系統應該為整數0到9分配唯一的token，然后將更大的整數表示為這些唯一token的組合。十進制系統（實際上，以任何連貫的基數來表示整數）允許定義加法、減法、乘法等直接算法。

然而，GPT2分詞器沒有這樣做，事實上，它沒有以任何連貫的基數來表示整數。十進制數0到9是硬編碼在其token集中的，以及其余的ASCII字符，但除此之外，BPE算法還將其他常見的數字塊token化為唯一的token，并且并不總是以連貫的方式。相反，很多整數都被分配了自己獨特的token。如下圖所示：

灣區大神Beren Millidge：整數tokenization是瘋狂的！-AI.x社區

在GPT2分詞器中前10000個整數的唯一token繪圖。

每一行在這里代表100個整數，因此整個矩陣代表了從1到10000的前10000個整數。如果一個方格被涂成黃色，這意味著該整數被分配了一個唯一的token標識符，如果是藍色，則該整數由一組組合的token編碼。我們觀察到，直到521為止的每一個整數都被分配了自己獨特的token標識符，而且在此之后也有許多數字被分配了自己的獨特標記。在前10000個整數中，有916個唯一的token（所以幾乎有1/10的token是唯一的），數字token占總token空間的約1/50（GPT2的tokenizer大約有50k個token）。這意味著任何涉及這些整數的計算或數學問題必須以某種特殊方式處理，并且純粹基于記憶運作。例如，當給出一個問題像54 + 72 = 126時，模型無法使用正常的加法算法，因為每一個token都是獨一無二的。相反，它必須記憶大量的問題及其答案。基本上，幾乎所有的兩位數和大多數三位數的加減法問題都必須通過記憶而不是連貫和通用的算法來解決。

如果我們更仔細地檢查這個圖，我們會發現即使在前1000個數字之外，仍然有很多獨特的數字。由于某種原因在訓練集中常見的許多可識別的數字被分配了一個唯一的數字，這就需要學習專門的機制來處理涉及這些數字的任何計算。還有一個有趣的特征是在1900-2000區域分配了唯一token的整數帶。這些代表了常見的日期 - 即從1930年到2020年的日期都分配了唯一的token，因為這些日期在訓練集中出現的頻率最高（有趣的是，唯一的token被分配到了2020年，然后突然停止，這使得您可以將tokenizer的創建日期定位在2019年至2020年）。

tokenization的荒謬之處也不僅僅限于許多唯一的token，還包括非唯一的整數是如何被token化的。對于這些數字，模型肯定不會采用連貫的十進制系統。相反，它將整數分成塊，然后以臨時的方式對它們進行token化。整數被分成塊的方式甚至可以在相鄰的數字之間變化。例如，數字2249被token化為“2”和“249”（1-3）。數字2250被token化為“22”和“50”（2-2），而數字“2251”則被token化為“225”和“1”（3-1）。

如果我們重復我們的分析，但為4位數如何被token化的不同類別著色 - 即作為唯一的、1-3長度的token、2-2 token或3-1 token，我們得到以下結果。

灣區大神Beren Millidge：整數tokenization是瘋狂的！-AI.x社區

在 GPT2 分詞器中復合數字 token 的構成圖。

這里明顯存在不隨機的不同編碼策略分布，每1000行都有一種略有重復的編碼模式。但如果你仔細觀察，你會發現其具體細節相當不一致。最終，這意味著即使是執行簡單的數值算法，比如多位數的加法，模型也必須根據tokenization的具體細節學習一系列特殊情況，從觀察更大數字的tokenization來看，這個問題似乎永遠也解決不了，總會有大數字被不一致地分割成token和偶爾出現的獨特token要處理。作為一個語言模型，真是太難了！

譯自：https://www.beren.io/2023-02-04-Integer-tokenization-is-insane

灣區大神Beren Millidge：整數tokenization是瘋狂的！-AI.x社區

誰是Beren Millidge？

Beren Millidge是舊金山灣區一家初創公司的聯合創始人。在此之前，Beren花了一段時間共同創立了 Apollo Research，之前Beren曾擔任 Conjecture 的研究主管。Beren曾在牛津大學從事計算神經科學的博士后研究，與 Rafal Bogacz 合作。Beren在愛丁堡大學完成了機器學習和計算神經科學的博士學位，并在蘇塞克斯大學作為訪問學者與 Alexander Tschantz、Chistopher Buckley 和 Anil Seth 合作。

本文轉載自公眾號AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/mny12p1XKzIeCUGaMgg3fA??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

什么是聲望？如何獲取聲望？

AI.x社區官方賬號 ? 3612瀏覽 ? 0回復
麥肯錫：ChatGPT等生成式AI應用激增，大中華區增長最快

Aceryt ? 2959瀏覽 ? 0回復
萬引大神: 機器學習不存在了

ceesoft ? 3119瀏覽 ? 0回復
大神Aviral Kumar：價值學習真的是離線 RL 的主要瓶頸嗎？

AIGC最前線 ? 2870瀏覽 ? 0回復
ChatGPT等模型瘋狂訓練，最快2026年消耗盡公開文本數據

Aceryt ? 4377瀏覽 ? 0回復
不鎖區、支持手機、免費使用，Moshi來啦！

Aceryt ? 3169瀏覽 ? 0回復
RAG 的盡頭是 Agent？

玄姐聊AGI ? 2597瀏覽 ? 0回復
初創AI公司瘋狂吸金4億美元！Karpathy大佬預言：未來編程只需狂按tab鍵，我們整理了風頭正盛的5家初創

51CTO技術棧 ? 2865瀏覽 ? 1回復
一區直接寫！基于SSA+Informer-SENet故障診斷模型

Tang_Lan ? 3170瀏覽 ? 0回復
AI大神吳恩達教你如何寫出完美的prompt提示詞

AI博物院 ? 3701瀏覽 ? 0回復
神經網絡是怎么學習的？

AI探索時代 ? 2016瀏覽 ? 0回復
中國大模型讓國外陷入瘋狂，成本猛降90%

Aceryt ? 3257瀏覽 ? 0回復
LLM之后，Agent的未來是RL！

探索AGI ? 3839瀏覽 ? 0回復
AI大神Andrej Karpathy：OpenAI Operator預示著AI智能體的未來，但仍需突破！

草臺AI ? 2171瀏覽 ? 0回復
YC合伙人警告：“僅僅在業務中調用OpenAI API，并不會改變創業公司的命運！”，建議創始人來灣區定居

51CTO技術棧 ? 1941瀏覽 ? 0回復
被 DeepSeek 帶火的蒸餾到底是啥

芝士AI吃魚 ? 5644瀏覽 ? 0回復
照著抄秒變AI大神！

草臺AI ? 2802瀏覽 ? 0回復
一區直接寫！CEEMDAN + SSA-TCN-BiLSTM-Attention預測模型

Tang_Lan ? 2607瀏覽 ? 0回復
代理AI是AI發展的新前沿

51CTO內容精選 ? 1949瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

預測未來模型能力！微調揭示LLM涌現能力的關鍵 2024-12-09 09:10:30發布
預測未來模型能力！微調揭示LLM涌現能力的關鍵 2024-12-03 15:46:55發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： ICRA 2024：基于語義增強和動作分塊實現的樣本高效機械臂操作——RoboAgent

下一篇：萬字長文解析：2024年的機器消除學習

社區精華內容

目錄

主站蜘蛛池模板：久久i| 亚洲福利一区二区 | 国产高清精品一区二区三区 | 中文字幕高清 | 殴美成人在线视频 | 欧美日韩在线综合 | 日韩精品在线一区 | 久久草视频 | 精品久久久久久一区二区 | 日韩在线视频一区 | 九热在线| 中文字幕第一页在线 | 91久久精品一区 | 中文字幕精品一区 | 爱爱综合网| 亚洲成人一区二区 | 日本涩涩视频 | 欧洲亚洲精品久久久久 | 激情av免费看 | 午夜理伦三级理论三级在线观看 | 美女激情av| 女人av| 欧美日韩一卡 | 中文字幕视频在线 | 黄色片免费 | 1级毛片 | 精品一区二区三区在线观看国产 | 亚洲视频在线播放 | 精品视频一区二区三区四区 | 国产一区二区三区视频在线观看 | 在线观看你懂的网站 | 91影院| 久久成人午夜 | 亚洲综合中文字幕在线观看 | 日韩精品一区二区三区 | 欧美成人激情 | 无人区国产成人久久三区 | 久久国产精品一区 | 成人久久| 国产在线中文 | 国产精品视频网站 |

<rt id="ckygy"><delect id="ckygy"></delect></rt>

<li id="ckygy"><dl id="ckygy"></dl></li>

<li id="ckygy"></li><nav id="ckygy"><dl id="ckygy"></dl></nav>

<center id="ckygy"><acronym id="ckygy"></acronym></center>