成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

輕量級(jí)NLP工具開(kāi)源,中文處理更精準(zhǔn),超越斯坦福Stanza

新聞 開(kāi)發(fā)工具
Trankit支持多達(dá)56種語(yǔ)言,除了簡(jiǎn)體和繁體中文以外,還支持文言文。最新輕量級(jí)多語(yǔ)言NLP工具集Trankit發(fā)布1.0版本,來(lái)自俄勒岡大學(xué)。

 本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

最新輕量級(jí)多語(yǔ)言NLP工具集Trankit發(fā)布1.0版本,來(lái)自俄勒岡大學(xué)。

基于Transformer,性能已超越之前的熱門(mén)同類(lèi)項(xiàng)目斯坦福Stanza

Trankit支持多達(dá)56種語(yǔ)言,除了簡(jiǎn)體和繁體中文以外,還支持文言文

先來(lái)看一組Trankit與Stanza對(duì)文言文進(jìn)行依存句法分析的結(jié)果。

輕量級(jí)NLP工具開(kāi)源,中文處理更精準(zhǔn),超越斯坦福Stanza

可以看到,Stanza錯(cuò)誤的將“有朋自遠(yuǎn)方來(lái)”中的“有”和“來(lái)”兩個(gè)動(dòng)詞判斷成并列關(guān)系

在簡(jiǎn)體中文的詞性標(biāo)注任務(wù)上,Trankit對(duì)“自從”一詞處理也更好。

輕量級(jí)NLP工具開(kāi)源,中文處理更精準(zhǔn),超越斯坦福Stanza

與Stanza一樣,Trankit也是基于Pytorch用原生Python實(shí)現(xiàn),對(duì)廣大Python用戶非常友好。

Trankit在多語(yǔ)言NLP多項(xiàng)任務(wù)上的性能超越Stanza。

輕量級(jí)NLP工具開(kāi)源,中文處理更精準(zhǔn),超越斯坦福Stanza

在英語(yǔ)分詞上的得分比Stanza高9.36%。在中文依存句法分析的UAS和LAS指標(biāo)上分別高出14.50%和15.0%

Trankit在GPU加持下加速更多,且占用內(nèi)存更小,作為一個(gè)輕量級(jí)NLP工具集更適合普通人使用。

輕量級(jí)NLP工具開(kāi)源,中文處理更精準(zhǔn),超越斯坦福Stanza

簡(jiǎn)單易用

Trankit的使用也非常簡(jiǎn)單,安裝只要pip install就完事了。

  1. pip install trankit 

不過(guò)需要注意的是,Trankit使用了Tokenizer庫(kù),需要先安裝Rust。

初始化一個(gè)預(yù)訓(xùn)練Pipeline:

  1. from trankit import Pipeline 
  2.  
  3. # initialize a multilingual pipeline 
  4. p = Pipeline(lang='english', gpu=True, cache_dir='./cache'

開(kāi)啟auto模式,可以自動(dòng)檢測(cè)語(yǔ)言:

  1. from trankit import Pipeline 
  2.  
  3. p = Pipeline('auto'
  4.  
  5. # Tokenizing an English input 
  6. en_output = p.tokenize('''I figured I would put it out there anyways.''')  
  7.  
  8. # POS, Morphological tagging and Dependency parsing a French input 
  9. fr_output = p.posdep('''On pourra toujours parler à propos d'Averroès de "décentrement du Sujet".''') 

使用自定義標(biāo)注數(shù)據(jù)自己訓(xùn)練Pipeline也很方便:

  1. from trankit import TPipeline 
  2.  
  3. tp = TPipeline(training_config={ 
  4.     'task''tokenize'
  5.     'save_dir''./saved_model'
  6.     'train_txt_fpath''./train.txt'
  7.     'train_conllu_fpath''./train.conllu'
  8.     'dev_txt_fpath''./dev.txt'
  9.     'dev_conllu_fpath''./dev.conllu' 
  10.     } 
  11.  
  12. trainer.train() 

統(tǒng)一的多語(yǔ)言Transformer

Trankit將各種語(yǔ)言分別訓(xùn)練的Pipelines整合到一起共享一個(gè)多語(yǔ)言預(yù)訓(xùn)練Transformer。

輕量級(jí)NLP工具開(kāi)源,中文處理更精準(zhǔn),超越斯坦福Stanza

然后為每種語(yǔ)言創(chuàng)建了一組適配器(Adapters)作為傳統(tǒng)的預(yù)訓(xùn)練模型“微調(diào)(Fine-tuning)”方法的替代,并對(duì)不同的NLP任務(wù)設(shè)置權(quán)重。

在訓(xùn)練中,共享的預(yù)訓(xùn)練Transformer是固定的,只有適配器和任務(wù)特定權(quán)重被更新。

在推理時(shí),根據(jù)輸入文本的語(yǔ)言和當(dāng)前的活動(dòng)組件,尋找相應(yīng)的適配器和特定任務(wù)權(quán)重。

這種機(jī)制不僅解決了內(nèi)存問(wèn)題,還大大縮短了訓(xùn)練時(shí)間

Trankit團(tuán)隊(duì)在實(shí)驗(yàn)中對(duì)比了另外兩種實(shí)現(xiàn)方法。

一種是把所有語(yǔ)言的數(shù)據(jù)集中到一起訓(xùn)練一個(gè)巨大的Pipeline。另一種是使用Trankit的方法但把適配器去掉。

輕量級(jí)NLP工具開(kāi)源,中文處理更精準(zhǔn),超越斯坦福Stanza

在各項(xiàng)NLP任務(wù)中,Trankit這種“即插即用”的適配器方法表現(xiàn)最好。

團(tuán)隊(duì)表示,未來(lái)計(jì)劃通過(guò)研究不同的預(yù)訓(xùn)練Transformer(如mBERT和XLM-Robertalarge)來(lái)改進(jìn)Trankit。

還考慮為更多語(yǔ)言提供實(shí)體識(shí)別,以及支持更多的NLP任務(wù)。

Github倉(cāng)庫(kù):
https://github.com/nlp-uoregon/trankit

在線Demo:
http://nlp.uoregon.edu/trankit

相關(guān)論文:
https://arxiv.org/pdf/2101.03289.pdf

 

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2020-03-23 14:24:09

Python 開(kāi)發(fā)編程語(yǔ)言

2025-02-28 09:52:00

2024-05-06 08:00:00

AI模型

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2023-03-22 15:14:00

數(shù)據(jù)模型

2012-03-21 21:38:27

蘋(píng)果

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級(jí)電腦百萬(wàn)內(nèi)核

2019-12-16 14:33:01

AI人工智能斯坦福

2023-10-05 12:31:14

AI數(shù)據(jù)

2024-09-26 10:23:46

2018-08-13 21:19:07

Weld開(kāi)源數(shù)據(jù)

2023-03-15 10:26:00

模型開(kāi)源

2024-01-29 12:49:00

AI模型

2025-01-17 10:26:19

模型開(kāi)發(fā)ChatGPT

2022-10-08 12:38:23

模型開(kāi)源

2023-08-10 14:01:08

開(kāi)源虛擬

2017-11-28 14:18:29

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美一区二区三区视频在线播放 | 在线观看日韩av | 国产精品一二区 | 欧美日韩一 | 久久99精品国产 | 国产精品久久九九 | 国产精品一区二区久久精品爱微奶 | 91精品国产综合久久久久久丝袜 | 久久av一区二区三区 | 欧美一级久久久猛烈a大片 日韩av免费在线观看 | 国产午夜一级 | 欧美一区久久 | www久久久| 日韩一区二区三区视频 | 人人澡视频| 国产欧美日韩一区 | 国产精品中文字幕在线 | 天天干天天爱天天操 | 国产高清视频 | 久久免费观看视频 | 亚洲国产精品一区 | 久久久精品网 | 风间由美一区二区三区在线观看 | 九九热在线免费观看 | 91青青草视频 | 日日爱av | 日韩在线成人 | 日本免费一区二区三区视频 | 91在线一区 | 精品久久久久久久久久久久 | 日韩在线观看中文字幕 | 国产一区二区三区在线看 | 日本三级黄视频 | 欧美成人免费 | 精品一二三区视频 | 国产精品视频免费观看 | 真人毛片| 国产精品高潮呻吟久久av野狼 | 日韩欧美一级 | 亚洲午夜精品视频 | 国产精品91视频 |