成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

這個比肩ImageNet的數據集遭MIT緊急下架，原因令人憤怒

作者：蕭簫 2020-07-02 14:25:06

新聞人工智能

就在這周，麻省理工學院緊急下架了Tiny Images數據集。原因很簡單，有學者研究指出，這個通過大量搜索引擎整合的數據集，內里竟然隱藏著諸多令人不齒的標簽。

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

就在這周，麻省理工學院緊急下架了Tiny Images數據集。

原因很簡單，有學者研究指出，這個通過大量搜索引擎整合的數據集，內里竟然隱藏著諸多令人不齒的標簽：兒童猥褻、性暗示、種族歧視……

而這些圖像的標簽（b***h，w**re），則帶有強烈的偏見和反人道的意味。

這個比肩ImageNet的數據集遭MIT緊急下架，原因令人憤怒

△ 從統計數據來看，包含這類標簽的圖片達成千上萬張

如果含有這樣的標簽和圖像的數據集被用于訓練AI，后果將不堪設想。

然而局面似乎已經無法挽回：由于這個數據集主打微小圖像，且圖片數量龐大，在當年計算機硬件還不發達時，曾被廣泛用于AI訓練，在arXiv上屬于高引用論文。

Reddit上針對此事的說法不一。

有網友認為，這件事有點小題大做的意思。畢竟這些通過網絡搜集到的圖片、文本信息，也是真實世界的一部分。

這個比肩ImageNet的數據集遭MIT緊急下架，原因令人憤怒

在我看來，這有點「道德恐慌」了。難道會有人覺得用來訓練GPT-3的接近1TB的開放式網絡文本信息里沒有任何冒犯性的內容？

但也有支持的網友拍手稱快。

這個比肩ImageNet的數據集遭MIT緊急下架，原因令人憤怒

MIT干得好！

除了這類情緒化的觀點，很多人也開始理性思考這種數據集形成的原因。

這是不是制作數據集的作者們無暇抽空檢查導致的？

這個比肩ImageNet的數據集遭MIT緊急下架，原因令人憤怒

這些機器學習的研究人員在處理圖像的時候，難道不會設置一下搜索過濾嗎？就我經驗來看，有些制作不精的數據集在沒時間檢查的情況下就發布了。

很快有網友否認了這種觀點，因為Tiny Images不屬于這種情況。

這個比肩ImageNet的數據集遭MIT緊急下架，原因令人憤怒

我認識原作者，情況不是你想的那樣。我覺得，作者只是沒有像我們今天這樣考慮這么多，他們在利用搜索引擎整合圖片的時候，可能沒想過要對標簽列表進行過濾。

無論網友抱持有何種觀點，目前這個數據集的下架都已是不爭的事實。

哪怕是比Tiny Images更有影響力的數據集ImageNet，在這次研究中也被指出存在部分令人不適的圖片，但沒有Tiny Images數量這么龐大。

有學者指出，ImageNet維護者眾多、且圖像分類明確，與之相比，Tiny Images則幾乎從未被仔細檢查過。

到底是什么原因，使得這么多年來，Tiny Images數據集一直少有人工清查？

這個問題，可能還得從Tiny Images自身的特性說起。

Tiny Images數據集的特點

Tiny Images數據集自2006年問世后，至今已包含5萬多個WordNet中的不同標簽。

數據集中的圖像，來源于搜索引擎搜索標簽、并自動下載所搜到的圖片。

整理后的圖像數量達8000萬張，每張都以非常低的分辨率（32×32）保存在數據集中，形成了Tiny Images數據集的特色：數量龐大，圖像微小。

然而，正是由于圖像數量過于龐大，導致這些令人反感的圖像隱藏太深；而低分辨率，則會導致這些圖像難以被視覺識別。

下架時，麻省理工學院給出了官方說明。

由于我們無法保證，能徹底刪除Tiny Images中所有令人反感的圖像，所以將它下線了。

同時，也希望網上不要再傳播已有的Tiny Images數據集副本。

將Tiny Images下架的最重要的原因，是因為這些帶有強烈偏見的、令人反感的標簽所標注的圖像，與我們計算機視覺行業致力于達成的包容、無偏見的價值觀背道而馳。

不僅如此，采用這些標簽進行訓練后的AI模型，可能會在圖像分類或目標檢測時，將這些隱含的反人道標簽用于目標識別中。

為什么會使AI產生偏見

無論是Tiny Images還是ImageNet，這次都栽在了一個叫WordNet的分類詞庫上。

詞庫以其強大的詞義關聯性著稱，會根據各種單詞的意義，將不同的詞組成各式各樣的集合，最終構成一個詞庫網。

例如，WordNet會將「比基尼」、「色情」和「whore」（貶義）等單詞關聯到一起，如果在搜索引擎上進行圖像搜索，所獲得的圖片會帶有強烈的偏見色彩。

這個比肩ImageNet的數據集遭MIT緊急下架，原因令人憤怒

△ 「whore」標簽的圖像下可能僅僅是一個穿著比基尼的女人

不可避免的是，WordNet中會收錄許多帶有貶義和偏見標簽的圖片，如果在使用這些圖片進行訓練時，沒有對標簽進行過濾，訓練后的AI就可能會利用這些標簽，戴上「有色眼鏡」識人。

ImageNet以其知名度和做得較好的圖像分類，較為幸運地得到了比較良好的維護，與之相比，Tiny Images中許多帶貶義標簽的圖像卻因為低分辨率難以被識別。

這就導致了這次的緊急下線。

但正如某些網友所說，無論如何，制作無任何偏見的數據集，本身就是良好的AI訓練不可或缺的一部分。

目前，許多最新的數據集也在不斷致力于以各種方式，接近這種「無偏見」的目標。

Tiny Images作者介紹

[[332095]]

△ 作者Antonio Torralba

Antonio Torralba，麻省理工學院的副教授，主要研究方向為計算機視覺和機器學習，Tiny Images是他與另外兩位作者，經過8個月時間整理出來的微型圖像數據集。

??

責任編輯：張燕妮來源：量子位

數據庫工具技術

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板： 91看片视频| 国产一区二区三区久久久久久久久 | 亚洲第一视频网 | 福利片在线观看 | 91精品国产综合久久久久久丝袜 | 久久国产精品一区二区三区 | 日韩在线视频精品 | av中文在线| 国产精品性做久久久久久 | 午夜噜噜噜 | a级性视频| 一区二区三区在线免费观看 | 成人影院免费视频 | 日韩精品一区二区三区免费观看 | 7777在线| 岛国毛片 | 久久久久亚洲精品 | 亚洲一区在线日韩在线深爱 | 亚洲3p| www国产成人免费观看视频,深夜成人网 | 一区二区三区四区不卡视频 | 久久精品二区亚洲w码 | 欧美日韩不卡 | 激情小说综合网 | 国产精品污www一区二区三区 | 欧美一级二级视频 | av久久| 欧美日韩久久精品 | 成人在线激情 | av官网在线 | 精品欧美一区二区在线观看视频 | 免费的色网站 | 欧美色综合天天久久综合精品 | 亚洲天天干 | 国产精品视频久久 | 国产成人精品视频在线观看 | 亚洲精品视频网站在线观看 | 国产精品91久久久久久 | 超碰在线人人 | 91视视频在线观看入口直接观看 | 精品日本久久久久久久久久 |