成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

離開(kāi)OpenAI的大神卡帕西「開(kāi)課了」:新項(xiàng)目日增千星,還是熟悉的min代碼風(fēng)

人工智能
BPE(字節(jié)對(duì)編碼)是隨著GPT-2而流行起來(lái)的標(biāo)記化算法。現(xiàn)在,包括GPT系列、Llama系列和Mistral在內(nèi),一眾大模型都用到了這一算法來(lái)訓(xùn)練分詞器。

大神Karpathy從OpenAI離職,原本揚(yáng)言要大休一周。

圖片圖片

但轉(zhuǎn)眼,新項(xiàng)目就已上線GitHub,日增上千星的那種。

圖片圖片

還是熟悉的卡式配方:

74行Python代碼搞定大模型標(biāo)記化(tokenization)中常用的BPE(Byte Pair Encoding)算法,實(shí)現(xiàn)該算法的最小、最干凈代碼版本。

甚至:

圖片圖片

是不是有點(diǎn)快3萬(wàn)標(biāo)星的nanoGPT內(nèi)味兒了?

這波啊,還真是讓網(wǎng)友們給猜著了:

Time to cook。

圖片

畢竟,Karpathy除了前特斯拉AI總監(jiān)、OpenAI創(chuàng)始成員的title,最為網(wǎng)友所熟悉的,就是“AI領(lǐng)域大善人”、“擅長(zhǎng)將復(fù)雜問(wèn)題簡(jiǎn)單化的卡老師”這樣的身份了(手動(dòng)狗頭)。

BPE代碼最小化版本

還是具體來(lái)看一下,Karpathy老師這次又煮出了一鍋什么樣的飯。

圖片圖片

項(xiàng)目名minbpe已經(jīng)說(shuō)明一切:BPE算法的最小、最干凈代碼版本。

BPE(字節(jié)對(duì)編碼)是隨著GPT-2而流行起來(lái)的標(biāo)記化算法。現(xiàn)在,包括GPT系列、Llama系列和Mistral在內(nèi),一眾大模型都用到了這一算法來(lái)訓(xùn)練分詞器。

BPE的主要優(yōu)勢(shì)在于:

  • 高效:通過(guò)合并頻繁出現(xiàn)的字節(jié)對(duì)來(lái)逐步構(gòu)建詞匯表,可以有效地減少模型需要處理的詞匯量。
  • 靈活:可以將詞匯表外的單詞分解為已知子詞來(lái)進(jìn)行處理,有助于模型理解和生成未在訓(xùn)練中出現(xiàn)的單詞。

而在minbpe這個(gè)項(xiàng)目中,Karpathy提供了兩個(gè)Tokenizer(分詞器),它們都可以執(zhí)行分詞器的3個(gè)主要功能:

  • 基于特定文本訓(xùn)練詞匯表和合并操作
  • 把文本編碼成token
  • 把token解碼為文本

具體而言,在basic.py中,minbpe用74行Python代碼,完成了對(duì)直接在文本上運(yùn)行的BPE算法的最簡(jiǎn)單實(shí)現(xiàn)。

圖片圖片

在regex.py中,minbpe實(shí)現(xiàn)的是一個(gè)正則表達(dá)式分詞器,該分詞器利用正則表達(dá)式進(jìn)一步拆分輸入的文本。

另外,在正則表達(dá)式分詞器的基礎(chǔ)之上,minbpe還在gpt4.py中提供了一個(gè)GPT4Tokenizer,可以準(zhǔn)確在線tiktoken庫(kù)中的GPT-4標(biāo)記化。

注:tiktoken是一種快速BPE分詞器。

圖片圖片

base.py則是一個(gè)基類,包含了訓(xùn)練、編碼和解碼的存根(stubs),提供了保存和加載的功能,并集成了一些常見(jiàn)的輔助工具函數(shù)。在實(shí)際應(yīng)用中,開(kāi)發(fā)者應(yīng)該通過(guò)繼承這個(gè)基類來(lái)實(shí)現(xiàn)具體的分詞器功能。

Karpathy提到,他在霉霉的維基百科文本上嘗試訓(xùn)練了兩個(gè)主要的分詞器。train.py在他的M1 MacBook上運(yùn)行時(shí)間大概為25秒。

如果你還有什么不清楚的地方,別擔(dān)心,卡老師已經(jīng)計(jì)劃要出視頻了:

圖片圖片

Karpathy出走OpenAI,許多猜測(cè)指向他的“下一篇章”是大語(yǔ)言模型系統(tǒng)(LLM OS):

圖片圖片

如今正式工作還未揭示,但看樣子Karpathy已經(jīng)拾起了“教學(xué)育人”的副業(yè),小伙伴們可以蹲起來(lái)了。

參考鏈接:https://github.com/karpathy/minbpe/

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2025-04-28 14:06:24

大模型AIOpenAI

2025-02-11 08:53:57

2024-02-19 08:56:00

AI模型

2025-03-03 08:25:00

模型AI訓(xùn)練

2024-07-17 09:17:50

2024-04-09 15:22:24

2025-06-03 14:13:56

ChatGPT模型AI

2024-11-12 09:14:52

2025-02-06 16:40:09

2025-03-25 09:43:03

2023-05-17 08:20:34

Java 17編程語(yǔ)言

2022-02-14 09:53:26

微軟代碼技術(shù)

2024-09-30 12:51:56

谷歌AI模型

2024-03-12 08:22:50

TypeScriptRust框架

2022-06-20 09:10:00

AI計(jì)算機(jī)量子

2025-02-08 09:15:00

2025-03-10 10:26:16

2021-04-23 11:18:55

npmpackage.jso命令

2020-08-05 17:16:53

GitHub 技術(shù)開(kāi)源

2023-07-20 21:41:08

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 做a网站| 天天躁日日躁狠狠躁白人 | 永久免费视频 | 97精品一区二区 | 久久精品欧美一区二区三区不卡 | 99精品免费久久久久久日本 | 日韩一区二区av | 成人免费xxxxx在线视频 | 欧美视频在线播放 | 五月综合激情婷婷 | 国产xxxx岁13xxxxhd | 国产一区二区三区免费 | 国产一区二区在线免费观看 | 久久久精彩视频 | 精品一区二区三区在线观看国产 | 欧美一级二级三级视频 | 一本一道久久a久久精品综合蜜臀 | 亚洲精品一区在线 | 国产精品亚洲综合 | 日韩成人在线播放 | 久久精品国产99国产精品 | 五月婷婷 六月丁香 | 日韩色在线 | h视频在线免费观看 | 人人干免费 | 成人高清在线视频 | 青青久草 | 日韩精品免费 | 国产精品久久久久久久久久三级 | 日本在线中文 | 欧美性猛交一区二区三区精品 | 亚洲国产精品日本 | 亚洲 精品 综合 精品 自拍 | 蜜桃精品噜噜噜成人av | 欧美嘿咻 | 九九综合九九 | 久久新 | 欧美色欧美亚洲另类七区 | 日韩欧美国产一区二区三区 | 做a的各种视频 | 欧美日韩国产在线观看 |