成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Karpathy新視頻又火了:從頭構建GPT Tokenizer

人工智能 新聞
手把手教咱構建一個GPT Tokenizer(分詞器),還是熟悉的時長(足足2小時13分鐘)。

技術大神卡帕西離職OpenAI以后,營業可謂相當積極啊。

這不,前腳新項目剛上線,后腳全新的教學視頻又給大伙整出來了:

這次,是手把手教咱構建一個GPT Tokenizer(分詞器),還是熟悉的時長(足足2小時13分鐘)

圖片

Ps. 上次講課還是倆月前的大模型科普。

所謂“卡帕西出手,必屬精品”,大伙火速碼碼碼:

今晚的約會取消,卡帕西來了我要去上課(狗頭)

圖片

再說一遍,付費都買不到的這樣高質量的課程,沖。

圖片

具體都有哪些干貨?

“太長不看版”已為大家準備好。

為什么要關注Tokenizer

如大神介紹:

Tokenizer即分詞器是大語言模型pipeline中一個完全獨立的階段。

它們有自己的訓練集、算法(比如BPE,字節對編碼),并在訓練完成后實現兩個功能:
從字符串編碼到token,以及從token解碼回字符串。

為什么我們需要關注它?

卡帕西指出:

因為LLM中的很多奇怪行為和問題都可以追溯到它。

比如:

  • 為什么大模型不能處理簡單的字符串處理任務,例如反轉?
  • 為什么大模型在非英語語言任務方面的性能更差?
  • 為什么大模型不擅長簡單的算術?
  • 為什么我的模型在看到字符串“”后就突然“宕機”了?
  • 為什么大模型實際上并不是端到端的語言建模?
  • ……

圖片

所以為了弄清這些問題,便有了今天的課程——盡管大神本人對這部分內容其實也不太喜歡。

上這門課大家會注意到我的表情全程都很凝重。不過,其中的細節真的太重要了(大家還是忍忍吧)

以下為視頻主要內容文字版。

圖片

從頭構建OpenAI大模型中使用的分詞器

視頻的最開始主要是對分詞器的一些介紹。

包括最簡單的字符級分詞操作(即每個字符是一個token)以及更為復雜和常用的chunk級操作(即多個字符也會組成一個token)

圖片

在這之中,業內最常用的算法是BPE,即byte pair encoding,字節對編碼,因此我們要想構建自己的分詞器,最重要的是了解這個算法。

卡帕西介紹:

BPE可以更好地處理非英語語言、對詞匯表大小進行調整,對于模型的性能有顯著影響。

比如GPT-4分詞器通過改進BPE算法,最終在處理Python代碼時更加高效,因為它能夠將多個空格合并為單個標記,從而減少序列長度,使得模型能夠關注更長更多的代碼。

需要注意的是,盡管BPE算法可以處理UTF-8編碼的字節序列,但直接使用這些序列會導致詞匯表過大、序列過長,從而影響模型的注意力機制和上下文長度,因此需要壓縮處理。

理解BPE算法后,如何構建自己的分詞器?

簡單來說,主要包括以下幾個步驟:

1、初始化詞匯表

基于UTF-8編碼的字節。

2、合并字節對并不斷迭代,直到詞匯表大小達到預設值

在實際演示中,卡帕西通過20次合并,將文本的token數量減少了約27%。

3、處理特殊字符和不同語言的字符

4、整體優化

詞匯表過大可能會導致模型訓練困難,過小則可能無法捕捉到足夠的語言細節。

5、選擇一個包含豐富語言特征的數據集來訓練

在此,卡帕西提到了SentencePiece庫,它支持多種分詞算法包括今天提到的BPE。

我們可以用它進行分詞器的訓練,包括配置選項和如何處理罕見字符。

訓練好的分詞器用于編碼和解碼文本也講了。

6、最后就是評估+集成到模型中了。

當然,后續我們還需要根據模型的表現進行持續調整。

具體道每一步,大神都給咱配了詳細的Python實現,包括如何找到最頻繁的字節對、如何合并這些對以及如何構建合并字典等等,具體大家就請參閱視頻吧。

圖片

在這之中,卡帕西也提醒了n個細節,比如:

在解碼過程中,如果遇到無效的UTF-8字節序列,可以使用“errors=’replace’”來替換;使用“end of text”特殊標記來在訓練數據中分隔文檔等等。

實際遠比此復雜

毫無疑問,卡帕西帶大家實現的是比較基礎的一個分詞器版本,實際模型中遠比這要復雜得多。

比如OpenAI官方提供的BPE分詞器——tiktoken

它用了正則表達式來分割文本,以此來保證某些類型的字符也不會被合并。在GPT-2中,它就在某些方面表現得不錯了。

到了GPT-4,官方也對其進行了一些調整。

圖片

主要的改變在于:

  1. GPT-4會將空格合并;
  2. 大小寫不敏感;
  3. GPT-4最多只合并3位數字,避免了長數字序列token。

不過由于官方并沒有公開具體訓練細節,所以我們也無法知道其詳細的實現。

而除了更復雜的算法,分詞器本身在處理長字符串、非英語語言、數字和特殊字符時都可能遇到問題。

因此,講來講去,大神在視頻中還是表達了一個“樸素的愿望”:

非常希望有一天能夠不需要分詞,直接將字節流輸入到語言模型中。

不過由于這就需要我們對Transfomer架構進行重大修改了,所以現階段,構建和優化分詞器仍然是實現高效大模型的關鍵步驟。

完整視頻見:https://weibo.com/6105753431/O1BQB96Yg

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-02-22 09:51:56

代碼AI

2024-02-22 07:29:31

OpenAIKarpathy分詞器

2024-12-26 11:48:27

2024-05-30 07:02:00

KarpathyGPT-2人工智能

2024-07-12 12:46:03

2024-03-01 13:49:00

數據訓練

2016-09-28 22:04:01

GNUAutotoolLinux

2024-02-26 00:40:00

AIGPT

2024-06-12 13:27:58

2021-01-12 09:46:00

深度學習編程神經網絡

2024-09-29 09:32:58

2024-06-11 08:37:00

2025-03-24 12:42:52

2017-07-12 08:33:04

機房數據中心服務器

2023-04-14 11:04:43

2025-02-13 13:00:00

2024-02-19 00:12:50

AI代碼

2023-07-12 13:29:44

2023-05-29 09:48:36

AI李飛飛

2022-07-01 08:38:56

谷歌AIParti
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩视频一区二区 | 国产激情在线 | 国产精品1区 | 日本黄色免费视频 | 成人免费网站www网站高清 | 国产精品污污视频 | 精品1区2区 | av中文字幕在线播放 | 欧美在线激情 | 欧美一a一片一级一片 | 在线91| 成人在线视频免费看 | 亚洲午夜精品在线观看 | 日韩2020狼一二三 | 91超碰在线观看 | 成人黄色电影在线观看 | 久久精品久久久 | 亚洲国产aⅴ精品 | 91在线精品播放 | 四虎成人免费视频 | 国产精品久久久久久妇女6080 | 欧美一区二区三区视频 | 欧美日韩亚洲国产综合 | 亚洲天堂男人的天堂 | 亚洲第一视频网站 | 天堂色| 久久综合狠狠综合久久综合88 | 精品av天堂毛片久久久借种 | 91麻豆精品国产91久久久久久久久 | 国产黄色大片在线免费观看 | 中文日韩字幕 | 99热这里| 国产69精品久久99不卡免费版 | 欧洲视频一区 | 欧美激情亚洲天堂 | 久久久美女| 成人欧美一区二区三区黑人孕妇 | 中文字幕一二三区 | 精品欧美一区免费观看α√ | 日韩精品久久久 | 午夜a区|