1GB文本標(biāo)記只需20秒!抱抱臉團(tuán)隊(duì)發(fā)布最新NLP工具
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
專注NLP的強(qiáng)大團(tuán)隊(duì)抱抱臉(hugging face)又發(fā)新資源!這一次是幫助NLP過(guò)程中,詞語(yǔ)切分(tokenization)更快的Tokenizers。
只要20秒就能編碼1GB文本,適用Rust、Python和Node.js,已經(jīng)在GitHub上獲得了800多星。
前不久,這個(gè)團(tuán)隊(duì)也憑借自己的技術(shù)實(shí)力獲得了1500萬(wàn)美元的天使投資。
速度快,功能多樣
在NLP模型訓(xùn)練中,詞語(yǔ)標(biāo)記和切分往往是一個(gè)瓶頸。Tokenizer能夠訓(xùn)練新的詞匯,并且進(jìn)行標(biāo)記。
功能多樣:適用于BPE/byte-level-BPE/WordPiece/SentencePiece各種NLP處理模型。
可以完成所有的預(yù)處理:截?cái)?Truncate)、填補(bǔ)(Pad)、添加模型需要的特殊標(biāo)記。
速度超級(jí)快:只需要20秒就可以在CPU上標(biāo)記1GB的文本。
目前適用三種編程語(yǔ)言:Rust/Python/Node.js
使用示例
github的資源頁(yè)面上提供了在Python上使用Tokenizers的示例,進(jìn)行簡(jiǎn)單的設(shè)置就可以使用:
也可以用Tokenizers進(jìn)行新詞訓(xùn)練:
雖然目前只可用于三種語(yǔ)言Python、JS、Rust,抱抱臉團(tuán)隊(duì)表示,將來(lái)會(huì)繼續(xù)升級(jí)以適用更多~
抱抱臉團(tuán)隊(duì)最新進(jìn)展
抱抱臉團(tuán)隊(duì)是一個(gè)創(chuàng)業(yè)團(tuán)隊(duì)。他們的Transformers是github上最火的NLP項(xiàng)目,已經(jīng)獲得了20K星。
作為專注于自然語(yǔ)言處理的創(chuàng)業(yè)公司,他們的目標(biāo)是開(kāi)發(fā)一個(gè)可以使用文字、照片、表情包的聊天機(jī)器人,名字叫做social AI 。
目前已經(jīng)經(jīng)過(guò)了三輪融資,共2000萬(wàn)美元。其中,在2019年底的A輪融資中,公司獲得了1500萬(wàn)美元,并打算將員工增加兩倍。
目前公司尚未盈利。創(chuàng)始人Clement Delangue在獲得A輪融資后表示,除了對(duì)話AI之外,公司正在構(gòu)建通用的NLP技術(shù),希望讓NLP技術(shù)滿足公司的多樣化需求。
傳送門
https://github.com/huggingface/tokenizers