輕量級(jí)NLP工具開(kāi)源，中文處理更精準(zhǔn)，超越斯坦福Stanza

作者：夢(mèng)晨 2021-04-02 15:02:42

新聞開(kāi)發(fā)工具

Trankit支持多達(dá)56種語(yǔ)言，除了簡(jiǎn)體和繁體中文以外，還支持文言文。最新輕量級(jí)多語(yǔ)言NLP工具集Trankit發(fā)布1.0版本，來(lái)自俄勒岡大學(xué)。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

最新輕量級(jí)多語(yǔ)言NLP工具集Trankit發(fā)布1.0版本，來(lái)自俄勒岡大學(xué)。

基于Transformer，性能已超越之前的熱門(mén)同類(lèi)項(xiàng)目斯坦福Stanza。

Trankit支持多達(dá)56種語(yǔ)言，除了簡(jiǎn)體和繁體中文以外，還支持文言文。

先來(lái)看一組Trankit與Stanza對(duì)文言文進(jìn)行依存句法分析的結(jié)果。

輕量級(jí)NLP工具開(kāi)源，中文處理更精準(zhǔn)，超越斯坦福Stanza

可以看到，Stanza錯(cuò)誤的將“有朋自遠(yuǎn)方來(lái)”中的“有”和“來(lái)”兩個(gè)動(dòng)詞判斷成并列關(guān)系。

在簡(jiǎn)體中文的詞性標(biāo)注任務(wù)上，Trankit對(duì)“自從”一詞處理也更好。

與Stanza一樣，Trankit也是基于Pytorch用原生Python實(shí)現(xiàn)，對(duì)廣大Python用戶非常友好。

Trankit在多語(yǔ)言NLP多項(xiàng)任務(wù)上的性能超越Stanza。

在英語(yǔ)分詞上的得分比Stanza高9.36%。在中文依存句法分析的UAS和LAS指標(biāo)上分別高出14.50%和15.0%。

Trankit在GPU加持下加速更多，且占用內(nèi)存更小，作為一個(gè)輕量級(jí)NLP工具集更適合普通人使用。

簡(jiǎn)單易用

Trankit的使用也非常簡(jiǎn)單，安裝只要pip install就完事了。

pip install trankit

不過(guò)需要注意的是，Trankit使用了Tokenizer庫(kù)，需要先安裝Rust。

初始化一個(gè)預(yù)訓(xùn)練Pipeline：

from trankit import Pipeline 
 
# initialize a multilingual pipeline 
p = Pipeline(lang='english', gpu=True, cache_dir='./cache')

開(kāi)啟auto模式，可以自動(dòng)檢測(cè)語(yǔ)言：

from trankit import Pipeline 
 
p = Pipeline('auto') 
 
# Tokenizing an English input 
en_output = p.tokenize('''I figured I would put it out there anyways.''')  
 
# POS, Morphological tagging and Dependency parsing a French input 
fr_output = p.posdep('''On pourra toujours parler à propos d'Averroès de "décentrement du Sujet".''')

使用自定義標(biāo)注數(shù)據(jù)自己訓(xùn)練Pipeline也很方便：

from trankit import TPipeline 
 
tp = TPipeline(training_config={ 
    'task': 'tokenize', 
    'save_dir': './saved_model', 
    'train_txt_fpath': './train.txt', 
    'train_conllu_fpath': './train.conllu', 
    'dev_txt_fpath': './dev.txt', 
    'dev_conllu_fpath': './dev.conllu' 
    } 
) 
 
trainer.train()