給研究思路就能推薦數據集,CMU博士后等人推出NLP數據處理神器
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
說出你的研究思路,就能給你推薦合適的數據集:
當然還可自己按需檢索,同時標出不同數據集的熱度:
更厲害的是能直接幫你分析數據集。
語料中是否包含仇恨言論、性別歧視語料等,所占比例是多少,通通都能告訴你。
以上,是一個名叫DataLab的通用數據處理平臺。
它包含1715個數據集,提供數據診斷、數據搜索、全局分析、標準化處理4方面的功能。
不僅可以幫助用戶分析數據的特征,還能對不同數據集進行標準化處理。
其幕后打造者之一為卡內基梅隆大學博士后劉鵬飛,他博士畢業于復旦大學。
方便,方便,還是方便
其實對于很多人來說,構建模型往往在數據集階段就會被卡住。
現在網絡上的數據集雖然一抓一大把,但質量參差不齊。
而且很多新入門的童鞋也對于自己應該用什么樣的數據集,非常迷茫。
那么,一個覆蓋數據集范圍廣、還能進行分析的平臺,或許能幫助你找到心儀的數據集。
基于這樣的背景下,劉鵬飛所在團隊就搞了個DataLab。
就拿找數據集來說吧,在DataLab上你不僅可以按照模型的需求來篩選合適數據集,還能看看哪些數據集最受歡迎、哪些下載量最多、哪些訪問量最多。
畢竟“大家說好才是真的好”,這句話在哪也受用嘛。
再來看標準化處理上。
DataLab提供86個功能,可以將不同的數據集標準化處理為統一格式。
如果你構建模型時不知道該用什么樣的數據集,還能直接問DataLab。
比如當你輸入研究思路:
我想訓練一個可以識別啤酒評論中包含的積極和消極情緒的模型。
DataLab就能給出20個數據集任君選擇,每一個點進去還有更加詳細的介紹。
除了提供數據集分析和處理功能,DataLab還可以根據現有的數據為大家提供一些全球視野的分析。
比如它能展現全球不同國家AI本地化技術積累的情況。
其開發者劉鵬飛表示,數據,尤其是標注數據是訓練一個AI系統的關鍵。所以很多時候,數據集的積累可以體現技術壁壘。
從DataLab上的大數據分析可以看出,美國在語言數據集上的優勢巨大,因為很多現有公開、流行的數據集都是以英文為主。
相較之下,中文數據集的積累情況就不夠好。
同時,這一平臺也能對全球不同研究機構在不同任務數據集上的表現進行排名。
從下表中可以看到,CMU、微軟亞研院、JHU、UW幾個機構位居前四,清華大學在國內排名最高。
不過平臺開發者也提醒大家,平臺上的數據統計有可能因為用戶提交數據不全而導致結果不準確/考慮不周全,僅作為參考之一。
用戶也可以在DataLab官網進行數據糾正。
復旦校友領銜打造
DataLab由卡內基梅隆大學語言技術研究所(LTI)博士后劉鵬飛領銜打造。
劉鵬飛于2019年在復旦大學計算機系獲得博士學位,師從邱錫鵬教授、黃萱菁教授。
研究興趣包括NLP模型可解釋性、遷移學習、任務學習等。
博士期間,他包攬了各種計算機領域的獎學金,包括IBM博士獎學金、微軟學者獎學金、騰訊人工智能獎學金、百度獎學金。
談到打造DataLab這一平臺的初衷,劉鵬飛向量子位表示:
機器學習領域有太多技術需要被標準化和統一,也需要技術被折疊,不然就會造成一種資源過剩帶來的浪費。
他提到,UC伯克利大學的明星實驗室RISELab曾打造出很多新穎的技術工具,比如高性能分布式執行框架Ray。
其掌舵人Ion Stoica教授在一次分享中提到“統一是它們成功的關鍵”。
DataLab這次的工作其實也是如此。
它的意義在于提供了一個“數據+操作”的統一框架,讓未來很多事情都可以轉化成兩件事:
- 定義/引入一個新的數據類型;
- 定義/引入一個新的數據操作(比如現在火熱的Prompt Learning,本質上就是重構數據)。
由此,研究者和開發者就可以有一個統一的入口去進行他們需要的各種數據分析與操作。
在DataLab里,不同數據類型、操作類型都被標準化,其目的就是讓用戶在前人已經解決的事情上不要再浪費時間,而是使用已經有的技術去探索新的技術發展。
當然,如果再深入一點,劉鵬飛表示創建DataLab還源于一股內在驅動力:
如何讓自己做的事情能夠在推動人類社會生產力發展上扮演一些重要的角色。
事實上,劉鵬飛也不是第一次為開發者、研究人員們打造便利的“小工具”了。
比如幫助開發者提出創新學術idea的輔助工具ExplainaBoard。
還有可自動生成論文評審結果的Demo網站ReviewAdvisor,只需要上傳PDF論文,即可自動生成評審結果。
哦對了,劉鵬飛還會在知乎上分享自己在NLP方面的一些研究心得。
比如這篇《近代自然語言處理技術發展的“第四范式”》就曾在網上引起過不小的反響。
感興趣的童鞋,歡迎移步大佬知乎圍觀~
DataLab地址:
http://datalab.nlpedia.ai/
GitHub地址:
https://github.com/ExpressAI/DataLab/
劉鵬飛知乎:
https://www.zhihu.com/people/liu-peng-fei-65-23/posts