成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<source id="xhzfn"><pre id="xhzfn"></pre></source>

<ins id="xhzfn"></ins>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

谷歌請印度標注員給Reddit評論數據集打標簽，錯誤率高達30%？

作者：機器之心 2022-07-19 16:23:00

可以確定的是，人工標注員完全沒懂 Reddit 網友的梗。

去年，谷歌發布了 GoEmotions 數據集，該數據集包含 58K 人工標注的 Reddit 評論，其中涉及 27 種情緒。

但一位名叫 Edwin Chen 的機器學習工程師卻在使用該數據集的時候，偶然發現了一些令人哭笑不得的錯誤。

他們本來嘗試自己在 GoEmotions 數據集上訓練模型，注意到似乎存在一些深層的質量問題。于是他們隨機抽取了 1000 條評論，在其中 308 條中發現了嚴重錯誤。

這里舉一些有代表性的例子：

aggressively tells friend I love them—— 被標記為「憤怒」
Yay, cold McDonald's. My favorite.—— 被標記為「喜愛」
Hard to be sad these days when I got this guy with me—— 被標記為「悲傷」
Nobody has the money to. What a joke—— 被標記為「愉悅」
……

光是從抽取的評論中，他們就統計到了 25 種被錯誤標記的情緒。

在人工智能領域，數據標注是一項非?；A，但也非常關鍵的工作。好的數據對于訓練模型至關重要，當數據面臨如此離譜的錯誤時，又該怎么訓練模型并評估模型的性能呢？

Edwin Chen 最后發問：「我們真的可以相信谷歌能夠創造出公正的現實世界人工智能嗎？」

所以，是什么導致了這些問題？

有人說：「有沒有可能，他們沒請人工標注員，或者請的人工標注員并未掌握流利的英語？」

據了解，GoEmotions 數據集的標注還是有人工參與的，只不過這些標注員是「以英語為母語的印度人」。

在論文的第 3.3 節中，有這么一段話：「我們給每個樣本分配了三個評估者。對于那些評估者沒有達成一致的樣本，我們分配了兩個額外的評估者。所有評估者都是以英語為母語的印度人?！?img src="https://s4.51cto.com/oss/202207/19/f71ec3642438d03bac7127d71b8c28e60f3f19.gif" alt="圖片" title="圖片" style="visibility: visible; width: 1px; height: 1px;" data-type="inline">

因為根據「Cowen et al. (2019b) 這項研究的結論，印度和美國兩地的英語使用者的情緒判斷維度很大程度上是相同的。

事實是，盡管掌握了流利的英語，標注員之中的許多人可能不了解所標注文本的文化、社會背景。但這卻是關鍵要點之一，尤其是對于 NLP 數據集，標注者必須具備充分的文化意識。

也就是說，鑒于很多標注員可能缺乏必要的背景知識，即使大多數的數據標注都不存在爭議了（如上圖），也不代表標注結果就是完全正確的。

造成這種問題的另一個重要原因是，數據集中的數據都沒有附加的元數據 (比如作者或子版塊名稱)。原論文中也提到了這一點：

語言不是處于真空之中的，它所在的版塊等信息非常重要。谷歌在構建數據集時卻忽略了這一點。這不是一個孤立事件：作者還提到，假如連谷歌這種擁有大量資源的公司都難以創建準確的數據集，那么我們見過的其他數據集質量更是難以想象。

好消息是，已經有學者關注到了這個問題。上個月，吳恩達發起了「以數據為中心的 AI」倡議，他表示，專注于提升人工智能系統的數據質量將有助于釋放其全部力量。

如果你想部署現實中 work 的機器學習模型，是時候關注高質量數據集而不是更大的模型了。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：欧美日韩一区二区三区四区五区 | 在线观看的av| 一区二区久久 | 美女黄视频网站 | 久久精品一区二 | 日韩精品免费在线观看 | 日韩精品久久久久久 | 精品国产欧美日韩不卡在线观看 | 国产精品黄视频 | 成人夜晚看av | 在线播放精品视频 | 欧美精品一区二区三区在线四季 | 91精品入口蜜桃 | 99re在线| 国产精品久久国产精品久久 | 日韩成人免费视频 | 一区二区三区视频播放 | 中文字幕一区二区三区在线观看 | 日韩一三区 | 日韩视频中文字幕 | 国产久 | 成人一区二区在线 | 伊人久久精品一区二区三区 | 成人一区二区三区在线观看 | 国产成人一区二区三区久久久 | 国产精品成人在线播放 | 日日射影院 | 一本大道久久a久久精二百欧洲一区二区三区 | 久草在线视频中文 | 久久亚洲高清 | 国产黄色小视频 | 日韩在线不卡 | 国产福利在线播放麻豆 | 中文字幕一页二页 | 日韩免费一区二区 | 国产午夜视频 | 色综合av | 国产高清精品一区二区三区 | 色www精品视频在线观看 | av一区二区三区 | 国产区在线观看 |

<s id="qouzr"><code id="qouzr"><ul id="qouzr"></ul></code></s>

<kbd id="qouzr"><acronym id="qouzr"></acronym></kbd>

<var id="qouzr"></var>