Facebook 開源數據集,旨在消除 AI 偏見
Facebook 宣布開源了一個名為 Casual Conversations 的視頻數據集,旨在幫助研究人員評估其計算機視覺和音頻模型在各種年齡、性別、明顯的膚色和周圍光線條件下的準確性,以消除 AI 偏見。
Casual Conversations 中包含了 3011 名參與者的 45000 多個視頻,均勻分布了不同的性別、年齡段和膚色。Facebook 要求其中的付費參與者提交視頻并自己提供了年齡和性別標簽,以盡可能地消除誤差。
此外,Facebook 還為 Casual Conversations 招募了一些訓練有素的注釋員。這些注釋員在每個視頻中標注了光照水平,以幫助衡量 AI 模型在低光環境條件下如何對待不同膚色的人。并根據 Fitzpatrick 量表對參與者的膚色進行了標記。Fitzpatrick 量表是美國皮膚科醫生 Thomas B. Fitzpatrick 在 1975 年開發的一種膚色分類模式,根據皮膚類型對紫外線的反應進行了概括分類,包括了 I 型(總是灼傷而從不曬黑的蒼白皮膚)到 VI 型(從不灼傷的深色素皮膚)。
Facebook 的 AI 團隊指出,其新的 Casual Conversations 數據集除了準確性測試外,還應該作為一種輔助工具,用于衡量數據集所代表的社區的計算機視覺和音頻模型的公平性。
目前,雖然該數據集已經提供給開源社區使用,但 Facebook 也指出,Casual Conversations 仍有其局限性。例如,其只提供了”男性“、”女性“和”其他“的性別標簽選項,而沒有包含那些認定為非二元的之類的性別。
該公司表示,在接下里的一年左右的時間里,其將繼續探索擴大這一數據集的途徑,使其更具包容性,代表的內容包括更廣泛的性別認同、年齡、地理位置、活動和其他特征。
本文轉自OSCHINA
本文標題:Facebook 開源數據集,旨在消除 AI 偏見
本文地址:https://www.oschina.net/news/136989/facebook-casual-conversations-dataset