十大針對機器學習的文本注釋工具與服務,你會選用哪個?
譯文【51CTO.com快譯】目前,從搜索引擎與情感分析,到虛擬助手與聊天機器人,機器學習應用場景中的許多研究領域,都需要通過文本注釋工具與服務來提供準確性。在AI研究與開發行業中,發現或創建可注釋的數據對于項目團隊而言,是一項昂貴而艱巨的任務。因此,人們經常把那些持有大量高質量已注釋數據的團隊,戲稱為“家里有礦”。不過幸運的是,業界有著許多可用于文本注釋的工具和服務,能夠幫助我們獲取所需的數據,進而實現包括實體提取、詞性標注、以及情感分析在內的各種操作。
下面,我將和您一起探討目前十大針對機器學習的文本注釋工具與服務。您可以根據自己項目的實際情況,從中做出選擇并試用。
1. Tagtog
Tagtog是一款由波蘭軟件公司開發的工具,可用于自動化或手動注釋文本。Tagtog既支持原生的PDF注釋,又包含了可用于自動化文本注釋的預訓練NER(Named Entity Recognition,命名實體識別)模型。除了Tagtog工具,該公司還擁有來自各個領域的專家網絡,能夠為文本注釋提供專業的服務。
2. LightTag
LightTag工具能夠方便企業和項目成員在內部平臺上,標記其文本數據。在套餐設計方面,盡管該工具的入門包是免費的,但是不同級別的工具包,有著不同的售價,以及每個月可提供注釋的數量限制。其中,免費版的數量是每月1000個注釋。
專門從事語言學研究的Lionbridge,不但擁有百萬用戶規模的社區,而且能夠支持三百多種語言。通常,它能夠提供的文本注釋服務包括:文本提取、情感分類、實體注釋、命名實體識別、以及語言成分分析等。此外,Lionbridge還提供了一種可以自定義數據注釋軟件,以方便用戶團隊將其授權并應用到各種文本注釋的項目中。
4.Scale
總部位于舊金山的Scale,是計算機視覺和NLP(Natural Language Processing,自然語言處理)數據注釋服務的提供商。通過將人工干預與Scale平臺相結合,該公司提供了諸如OCR轉錄、文本分類與比較等文本注釋類型的服務。
5. KConnect
許多AI研究人員和開發團隊往往會碰到的一個問題是:如何才能訪問到那些隸屬于高度專業化領域的AI訓練數據。KConnect團隊就致力于幫助注釋者用戶快速、有效地對醫療領域的數據進行分類和注釋。具體而言,KConnect為醫療類信息提供了語義注釋、文本分析、以及語義搜索等服務。
6. Clickworker
總部位于美國和德國Clickworker,是一家眾包公司。它擁有龐大的從業團隊,能夠執行各項任務。他們在文本注釋領域所提供的服務包括:情感分析與分類。
7. ParallelDots Text Annotation API
ParallelDots能夠提供文本注釋類工具和多種API。他們的解決方案包括:情感分析、情緒分析、關鍵字提取器、以及命名實體識別等。
8. Appen
作為一種以眾多形式實現AI訓練數據的服務,Appen擁有來自各個國家的大量貢獻者。它所提供的文本注釋服務涵括了:情感注釋、意圖注釋、以及命名實體注釋等方面。
源自意大利的Dandelion API提供了豐富的自動化文本注釋工具。盡管它是該領域相對較新的創業公司,但是其工具可被用于實體提取、情感分析、以及文本與內容分類等不同場景中。
10. Dataturks Text Annotation Tools
借助著數據注釋內部API、以及上千家合作外包公司,Dataturks能夠提供各種圖像和文本注釋的工具。具體而言,它的文本標記功能包括:文本分類、命名實體識別、以及詞性標記等。
借助上述各種先進的文本注釋工具,相信您的團隊能夠構建出屬于自己的自定義工作流程和數據注釋平臺,并能夠滿足特定應用場景的項目需求。
原文標題:10 Best Text Annotation Tools and Services for Machine Learning,作者: Limarc Ambalina
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】