谷歌請印度標注員給Reddit評論數據集打標簽,錯誤率高達30%?
去年,谷歌發布了 GoEmotions 數據集,該數據集包含 58K 人工標注的 Reddit 評論,其中涉及 27 種情緒。
但一位名叫 Edwin Chen 的機器學習工程師卻在使用該數據集的時候,偶然發現了一些令人哭笑不得的錯誤。
他們本來嘗試自己在 GoEmotions 數據集上訓練模型,注意到似乎存在一些深層的質量問題。于是他們隨機抽取了 1000 條評論,在其中 308 條中發現了嚴重錯誤。
這里舉一些有代表性的例子:
- aggressively tells friend I love them—— 被標記為「憤怒」
- Yay, cold McDonald's. My favorite.—— 被標記為「喜愛」
- Hard to be sad these days when I got this guy with me—— 被標記為「悲傷」
- Nobody has the money to. What a joke—— 被標記為「愉悅」
- ……
光是從抽取的評論中,他們就統計到了 25 種被錯誤標記的情緒。
在人工智能領域,數據標注是一項非?;A,但也非常關鍵的工作。好的數據對于訓練模型至關重要,當數據面臨如此離譜的錯誤時,又該怎么訓練模型并評估模型的性能呢?
Edwin Chen 最后發問:「我們真的可以相信谷歌能夠創造出公正的現實世界人工智能嗎?」
所以,是什么導致了這些問題?
有人說:「有沒有可能,他們沒請人工標注員,或者請的人工標注員并未掌握流利的英語?」
據了解,GoEmotions 數據集的標注還是有人工參與的,只不過這些標注員是「以英語為母語的印度人」。
在論文的第 3.3 節中,有這么一段話:「我們給每個樣本分配了三個評估者。對于那些評估者沒有達成一致的樣本,我們分配了兩個額外的評估者。所有評估者都是以英語為母語的印度人?!?img src="https://s4.51cto.com/oss/202207/19/f71ec3642438d03bac7127d71b8c28e60f3f19.gif" alt="圖片" title="圖片" style="visibility: visible; width: 1px; height: 1px;" data-type="inline">
因為根據「Cowen et al. (2019b) 這項研究的結論,印度和美國兩地的英語使用者的情緒判斷維度很大程度上是相同的。
事實是,盡管掌握了流利的英語,標注員之中的許多人可能不了解所標注文本的文化、社會背景。但這卻是關鍵要點之一,尤其是對于 NLP 數據集,標注者必須具備充分的文化意識。
也就是說,鑒于很多標注員可能缺乏必要的背景知識,即使大多數的數據標注都不存在爭議了(如上圖),也不代表標注結果就是完全正確的。
造成這種問題的另一個重要原因是,數據集中的數據都沒有附加的元數據 (比如作者或子版塊名稱)。原論文中也提到了這一點:
語言不是處于真空之中的,它所在的版塊等信息非常重要。谷歌在構建數據集時卻忽略了這一點。這不是一個孤立事件:作者還提到,假如連谷歌這種擁有大量資源的公司都難以創建準確的數據集,那么我們見過的其他數據集質量更是難以想象。
好消息是,已經有學者關注到了這個問題。上個月,吳恩達發起了「以數據為中心的 AI」倡議,他表示,專注于提升人工智能系統的數據質量將有助于釋放其全部力量。
如果你想部署現實中 work 的機器學習模型,是時候關注高質量數據集而不是更大的模型了。