成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文搞懂Tokenization!

人工智能
Tokenization是NLP的基本任務(wù),按照特定需求能把一段連續(xù)的文本序列切分為一個(gè)字符串序列,其中的元素稱為token或詞語。

語言模型是對文本進(jìn)行推理,文本通常是字符串形式,但是模型的輸入只能是數(shù)字,因此需要將文本轉(zhuǎn)換成數(shù)字形式。

Tokenization是NLP的基本任務(wù),按照特定需求能把一段連續(xù)的文本序列(如句子、段落等)切分為一個(gè)字符串序列(如單詞、短語、字符、標(biāo)點(diǎn)等多個(gè)單元),其中的元素稱為token或詞語。

具體流程如下圖所示,首先將文本句子切分成一個(gè)個(gè)單元,然后將子單元數(shù)值化(映射為向量),再將這些向量輸入到模型進(jìn)行編碼,最后輸出到下游任務(wù)進(jìn)一步得到最終的結(jié)果。

文本切分

按照文本切分的粒度可以將Tokenization分為詞粒度Tokenization、字符粒度Tokenization、subword粒度Tokenization三類。

1.詞粒度Tokenization

詞粒度Tokenization是最直觀的分詞方式,即是指將文本按照詞匯words進(jìn)行切分。例如:

The quick brown fox jumps over the lazy dog.

詞粒度Tokenized結(jié)果:

['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.']

在這個(gè)例子中,文本被切分為一個(gè)個(gè)獨(dú)立的單詞,每個(gè)單詞作為一個(gè)token,標(biāo)點(diǎn)符號'.'也被視為獨(dú)立的token。

如若是中文文本,則通常是按照詞典收錄的標(biāo)準(zhǔn)詞匯或是通過分詞算法識別出的短語、成語、專有名詞等進(jìn)行切分。例如:

我喜歡吃蘋果。

詞粒度Tokenized結(jié)果:

['我', '喜歡', '吃', '蘋果', '。']

這段中文文本被切分成五個(gè)詞語:“我”、“喜歡”、“吃”、“蘋果”和句號“。”,每個(gè)詞語作為一個(gè)token。

2.字符粒度Tokenization

字符粒度Tokenization將文本分割成最小的字符單元,即每個(gè)字符被視為一個(gè)單獨(dú)的token。例如:

Hello, world!

字符粒度Tokenized結(jié)果:

['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd', '!']

字符粒度Tokenization在中文中是將文本按照每個(gè)獨(dú)立的漢字進(jìn)行切分。

我喜歡吃蘋果。

字符粒度Tokenized結(jié)果:

['我', '喜', '歡', '吃', '蘋', '果', '。']

3.subword粒度Tokenization

subword粒度Tokenization介于詞粒度和字符粒度之間,它將文本分割成介于單詞和字符之間的子詞(subwords)作為token。常見的subword Tokenization方法包括Byte Pair Encoding (BPE)、WordPiece等。這些方法通過統(tǒng)計(jì)文本數(shù)據(jù)中的子串頻率,自動(dòng)生成一種分詞詞典,能夠有效應(yīng)對未登錄詞(OOV)問題,同時(shí)保持一定的語義完整性。

helloworld

假設(shè)經(jīng)過BPE算法訓(xùn)練后,生成的子詞詞典包含以下條目:

h, e, l, o, w, r, d, hel, low, wor, orld

子詞粒度Tokenized結(jié)果:

['hel', 'low', 'orld']

這里,“helloworld”被切分為三個(gè)子詞“hel”,“l(fā)ow”,“orld”,這些都是詞典中出現(xiàn)過的高頻子串組合。這種切分方式既能處理未知詞匯(如“helloworld”并非標(biāo)準(zhǔn)英語單詞),又保留了一定的語義信息(子詞組合起來能還原原始單詞)。

在中文中,subword粒度Tokenization同樣是將文本分割成介于漢字和詞語之間的子詞作為token。例如:

我喜歡吃蘋果

假設(shè)經(jīng)過BPE算法訓(xùn)練后,生成的子詞詞典包含以下條目:

我, 喜, 歡, 吃, 蘋, 果, 我喜歡, 吃蘋果

子詞粒度Tokenized結(jié)果:

['我', '喜歡', '吃', '蘋果']

在這個(gè)例子中,“我喜歡吃蘋果”被切分為四個(gè)子詞“我”、“喜歡”、“吃”和“蘋果”,這些子詞均在詞典中出現(xiàn)。雖然沒有像英文子詞那樣將漢字進(jìn)一步組合,但子詞Tokenization方法在生成詞典時(shí)已經(jīng)考慮了高頻詞匯組合,如“我喜歡”和“吃蘋果”。這種切分方式在處理未知詞匯的同時(shí),也保持了詞語級別的語義信息。

索引化

假設(shè)已有創(chuàng)建好的語料庫或詞匯表如下。

vocabulary = {
    '我': 0,
    '喜歡': 1,
    '吃': 2,
    '蘋果': 3,
    '。': 4
}

則可以查找序列中每個(gè)token在詞匯表中的索引。

indexed_tokens = [vocabulary[token] for token in token_sequence]
print(indexed_tokens)

輸出:[0, 1, 2, 3, 4]。

責(zé)任編輯:趙寧寧 來源: 小喵學(xué)AI
相關(guān)推薦

2022-03-24 08:51:48

Redis互聯(lián)網(wǎng)NoSQL

2023-09-08 08:20:46

ThreadLoca多線程工具

2021-03-22 10:05:59

netstat命令Linux

2023-09-15 12:00:01

API應(yīng)用程序接口

2022-08-15 15:39:23

JavaScript面向?qū)ο?/a>數(shù)據(jù)

2021-01-13 05:21:59

參數(shù)

2023-10-16 08:16:31

Bean接口類型

2023-08-24 16:50:45

2021-06-30 08:45:02

內(nèi)存管理面試

2019-11-19 08:00:00

神經(jīng)網(wǎng)絡(luò)AI人工智能

2020-03-18 14:00:47

MySQL分區(qū)數(shù)據(jù)庫

2023-04-03 15:04:00

RPCPHP語言

2024-06-05 11:43:10

2022-06-07 10:13:22

前端沙箱對象

2023-09-02 21:27:09

2021-02-28 20:53:37

Cookie存儲瀏覽器

2020-09-03 06:35:44

Linux權(quán)限文件

2023-05-22 13:27:17

2021-03-04 00:09:31

MySQL體系架構(gòu)

2021-07-08 10:08:03

DvaJS前端Dva
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲三区在线 | 色网站入口 | 日韩一区二区免费视频 | 久久综合狠狠综合久久综合88 | 欧美日韩精品一区二区天天拍 | 国产成人99av超碰超爽 | 亚洲不卡在线观看 | 夜久久| 日本粉嫩一区二区三区视频 | 亚洲综合视频 | 亚洲精品一区久久久久久 | 久久久高清 | 亚洲视频在线观看 | 欧美久久免费观看 | 久日精品 | 亚洲欧美日韩国产综合 | 欧美中文字幕一区二区三区亚洲 | 亚洲 欧美 另类 日韩 | 午夜寂寞影院列表 | 成人性生交大片免费看r链接 | 中文在线播放 | 成人久久久 | 一区二区三区四区在线视频 | 一区中文字幕 | 日韩在线xx| 国产欧美视频一区二区三区 | av手机免费在线观看 | 午夜精品导航 | 亚洲精久久久 | 中文av在线播放 | 91视频.| 高清视频一区二区三区 | 久久欧美高清二区三区 | 一区二区三区精品视频 | 日韩三级 | 美女福利视频 | 成人影视网 | 久久亚洲国产 | a视频在线播放 | 成人一区二区三区在线观看 | 欧美久久视频 |