十個推薦開源免費(fèi)文本標(biāo)注工具
文本標(biāo)注工作是將標(biāo)簽或標(biāo)記與文本的特定部分(如短語、單詞或句子)相關(guān)聯(lián)的過程。其目的是提供有關(guān)文本的額外信息,用于進(jìn)一步的分析或處理,特別是在人工智能領(lǐng)域。
文本標(biāo)注對于人工智能應(yīng)用中的監(jiān)督機(jī)器學(xué)習(xí)任務(wù)至關(guān)重要。用于訓(xùn)練AI模型,有助更準(zhǔn)確地理解自然語言文本信息,提高文本分類、情感分析和語言翻譯等任務(wù)的性能。通過文本標(biāo)注,我們可以教AI模型識別文本中的實(shí)體、理解上下文,并在出現(xiàn)新的類似數(shù)據(jù)時做出準(zhǔn)確的預(yù)測。
本文主要推薦一些較好的開源文本標(biāo)注工具。
1.Label Studio
https://github.com/HumanSignal/label-studio
Label Studio是一個開源數(shù)據(jù)標(biāo)注工具,支持各種數(shù)據(jù)類型并導(dǎo)出為多種模型格式。用于準(zhǔn)備原始數(shù)據(jù)或增強(qiáng)現(xiàn)有的訓(xùn)練數(shù)據(jù),以獲得更準(zhǔn)確的機(jī)器學(xué)習(xí)模型。
2.Doccano
https://github.com/doccano/doccano
Doccano是一個開源文本標(biāo)注工具,提供文本分類、序列標(biāo)記和序列任務(wù)的功能。它支持文本標(biāo)注團(tuán)隊協(xié)作、多語言、移動應(yīng)用、表情符號、深色主題和REST風(fēng)格的API。可以使用Docker和Docker Compose安裝。
3.Universal Data Tool
https://github.com/UniversalDataTool/universal-data-tool
Universal Data Tool是一個用于編輯和注釋各種類型的數(shù)據(jù)(包括圖像、文本、音頻和文檔)的多功能應(yīng)用程序。它支持廣泛的數(shù)據(jù)類型,并提供實(shí)時協(xié)作、易于使用的GUI、為文本標(biāo)注人員創(chuàng)建培訓(xùn)課程等功能。該工具可以在網(wǎng)絡(luò)上使用,也可以作為桌面應(yīng)用程序使用,并支持CSV或JSON格式的數(shù)據(jù)下載和上傳。
4.YEDDA
https://github.com/jiesutd/YEDDA
YEDDA是一個可以用于各種語言、符號和表情符號的文本標(biāo)注工具。它支持使用快捷方式、命令模型,并將標(biāo)注文本導(dǎo)出為序列文本。支持智能推薦和管理員分析等功能。
YEDDA兼容所有主流操作系統(tǒng),包括Windows、Linux和MacOS。
5.Argilla
https://github.com/argilla-io/argilla
Argilla是一個面向人工智能工程師和領(lǐng)域?qū)<业拈_源數(shù)據(jù)協(xié)作平臺,提供高質(zhì)量、高效率的數(shù)據(jù)輸出。
它有助于控制數(shù)據(jù)質(zhì)量并提高AI輸出質(zhì)量,并通過實(shí)現(xiàn)數(shù)據(jù)和模型的快速迭代來提高效率。Argilla還提供了數(shù)據(jù)管理和模型訓(xùn)練工具。
6.KernAI Refinery
https://github.com/code-kern-ai/refinery
Refinery是KernAI的一個開源平臺,專為處理自然語言數(shù)據(jù)的數(shù)據(jù)科學(xué)家設(shè)計。它提供半自動化數(shù)據(jù)標(biāo)注、數(shù)據(jù)子集質(zhì)量評估和集中數(shù)據(jù)監(jiān)控等功能,旨在提高人工標(biāo)記效率。
該工具利用Hugging Face和spaCy等技術(shù)構(gòu)建預(yù)建語言模型,并與其他標(biāo)簽工具集成,以實(shí)現(xiàn)靈活的數(shù)據(jù)處理。
功能特征:
- NLP任務(wù)的(半)自動化標(biāo)簽工作流程
- 手動和程序化分類以及跨度標(biāo)簽
- 支持與最先進(jìn)的庫和框架集成
- 創(chuàng)建和管理查找表/知識庫
- 基于神經(jīng)搜索的相似記錄和離群值檢索
- 可切片標(biāo)簽會話
- 每個項目多個標(biāo)簽任務(wù)
- 豐富的自動化庫
- 廣泛的數(shù)據(jù)管理和監(jiān)控
- 與Hugging Face集成,用于自動創(chuàng)建嵌入
- 基于JSON的數(shù)據(jù)模型用于數(shù)據(jù)上傳/下載
- 項目指標(biāo)概述
- 通過Python SDK訪問和擴(kuò)展數(shù)據(jù)
- 在位屬性修改
- 托管版本中的團(tuán)隊協(xié)作
- 面向多個用戶的基于角色的訪問和最小化的標(biāo)簽視圖
- 集成群組標(biāo)簽工作流
- 自動計算注釋者之間的協(xié)
7.Recogito.js
https://github.com/recogito/recogito-js
ApplitoJS是一個用于文本注釋的JavaScript庫,用于向網(wǎng)頁添加文本標(biāo)注功能或構(gòu)建自定義文本標(biāo)注程序。可以通過npm或下載最新版本來安裝。
8.Label Sleuth
https://github.com/label-sleuth/label-sleuth
Label Sleuth是一個用于文本標(biāo)注和分類的開源、無代碼系統(tǒng)。它使醫(yī)生、律師、心理學(xué)家等領(lǐng)域的專家也能夠在沒有NLP專家配合的情況下構(gòu)建自定義NLP模型。
通常NLP模型創(chuàng)建需要領(lǐng)域和機(jī)器學(xué)習(xí)專業(yè)知識。Label Sleuth通過直觀的文本標(biāo)注和AI模型構(gòu)建,繞開了對NLP專業(yè)知識的要求。當(dāng)用戶在標(biāo)注數(shù)據(jù)時,機(jī)器學(xué)習(xí)模型在后臺進(jìn)行訓(xùn)練,進(jìn)行預(yù)測并建議下一步標(biāo)記什么。
作為一個無代碼系統(tǒng),它不需要機(jī)器學(xué)習(xí)知識,并允許快速開發(fā)模型,從任務(wù)定義到完成模型只需幾個小時。
9.Markup
https://github.com/samueldobbie/markup
Markup是一種在線標(biāo)注工具,可用于將非結(jié)構(gòu)化文檔轉(zhuǎn)換為NLP和ML任務(wù)的結(jié)構(gòu)化格式,例如:實(shí)體識別。在您標(biāo)注時進(jìn)行同步學(xué)習(xí),以預(yù)測和推薦更為復(fù)雜的標(biāo)注,并且還提供對用于概念映射的通用和自定義本體的集成訪問。
功能特征:
- 預(yù)測性注釋:Markup的機(jī)器學(xué)習(xí)驅(qū)動的預(yù)測性標(biāo)注功能,可在您工作時推薦更復(fù)雜的標(biāo)注,使標(biāo)注的過程更加高效。
- 集成本體訪問標(biāo)記:提供了對廣泛的通用本體(例如UMLS、SNOMED-CT、ICD-10)的集成訪問,以及上傳自定義本體的能力,用于概念映射。
- 預(yù)測性本體映射:Markup的預(yù)測性本體映射功能使用機(jī)器學(xué)習(xí),根據(jù)您正在標(biāo)注的文本,推薦到標(biāo)準(zhǔn)和自定義術(shù)語的適當(dāng)映射。
- 友好的用戶界面:無論您是技術(shù)專家還是初學(xué)者,標(biāo)記的用戶友好的界面使任何人都可以輕松地以最小的設(shè)置開始注釋文檔。
10.Potato
https://github.com/davidjurgens/potato
Potato是一個基于Web的文本標(biāo)注工具,支持快速設(shè)置和部署各種文本標(biāo)注任務(wù)。可以作為Web服務(wù)器運(yùn)行,由單個配置文件驅(qū)動,不需要啟動編碼。但Potato很容易自定義,通常不需要額外的網(wǎng)頁設(shè)計,就可以調(diào)整文本標(biāo)注人員的操作界面。
關(guān)鍵特征:
- 易于設(shè)置和定制
- 廣泛的內(nèi)置模式和模板
- 支持多種數(shù)據(jù)類型
- 支持多任務(wù)設(shè)置
- 通過鍵盤快捷鍵、動態(tài)高亮顯示和標(biāo)簽工具提示等功能提高標(biāo)注效率
- 更好地了解注釋者的功能,例如篩選前和篩選后的問題
- 質(zhì)量控制功能,如注意力測試、資格測試和內(nèi)置時間檢查