成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

模型數據出現偏差怎么辦?一文了解機器學習中的7種數據偏差類型

人工智能 機器學習
機器學習中的數據偏差是一種錯誤,其中數據集的某些元素的權重和/或表示程度高于其他元素。偏置數據集不能準確表示模型的用例,從而導致結果偏斜、精度低和分析錯誤。

 機器學習中的數據偏差是一種錯誤,其中數據集的某些元素的權重和/或表示程度高于其他元素。偏置數據集不能準確表示模型的用例,從而導致結果偏斜、精度低和分析錯誤。

通常,機器學習項目的培訓數據必須代表現實世界。這一點很重要,因為此數據是計算機學習完成工作的一種方法。數據偏差可能發生在一系列領域,從人類報告和選擇偏差到算法和解釋偏差。下圖是僅出現在數據收集和注釋階段的各種偏差的一個很好的示例。

 

 

模型數據出現偏差怎么辦?一文了解機器學習中的7種數據偏差類型

 

 

解決機器學習項目中的數據偏差問題意味著首先要確定數據偏差的所在位置。只有在知道存在偏差的地方后,才能采取必要的步驟來糾正,無論是解決缺少數據的問題還是改進注釋過程。有鑒于此,對數據的范圍、質量和處理保持警惕,盡可能避免偏差,這一點非常重要。這不僅影響模型的準確性,還可以影響道德、公平和包容問題。

本文列出了機器學習中最常見的七種數據偏差類型,可以幫助大家分析并了解偏差發生在哪里,以及我們可以對偏差做什么。

數據偏差的類型

這個列表雖然不是所有數據偏差類型都包括在內,但是常見的數據偏差示例,以及數據偏差發生的位置的示例已經包含其中。

示例偏差:當數據集不反映模型將運行的環境的現實時,就會出現示例偏差。例如某些面部識別系統主要訓練對象是白人男子,因此這些模式對婦女和不同族裔的人的準確性要低得多。這種偏見的另一個名稱是選擇偏差。

排除偏差:排除偏差在數據預處理階段最常見。最常見的情況是刪除被認為不重要的有價值的數據。此外,系統在排除某些信息時,也有可能會發生偏差。例如,假設我們有一個北京和深圳的客戶銷售數據集。98% 的客戶來自北京,因此我們選擇刪除位置數據,認為該位置數據無關緊要。但是,這就意味著我們的模型不會發現深圳客戶增加了兩倍的事情。

測量偏差:當為訓練收集的數據與現實世界中收集的數據不同時,或者當測量錯誤導致數據失真時,將發生此類偏差。這種偏差的一個很好的例子出現在圖像識別數據集中,其中訓練數據是用一種類型的攝像機采集的,而生產數據是用另一種攝像機采集的。在項目的數據標記階段,由于注釋不一致,也可能出現測量偏差。

召回偏差:這也是一種測量偏差,在項目的數據標記階段很常見。當我們對相同類型的數據進行不一致標記時,就會出現召回偏差,導致精度降低。例如,假設我們的團隊將手機圖像標記為損壞、部分損壞或未損壞。如果有人將圖像標為已損壞,但將類似的圖像標為部分損壞,那么我們的數據就會不一致。

觀察者偏見:也稱為確認偏差,觀察者偏差是指在數據中看到自己希望看到的結果。當研究人員帶著對研究的主觀想法(無論是有意識的還是無意識的)進入項目時,就可能發生這種情況。當貼標簽的人讓他們的主觀想法控制其標簽的習慣,就會導致數據不準確。

種族偏見:雖然不是傳統意義上的數據偏見,但由于它最近在人工智能技術中的流行,該偏差還是值得一提的。當數據偏向于特定人口統計學時,就產生種族偏見。從面部識別和自動語音識別技術中看出,這種技術無法像白種人那樣準確地識別其他有色人種。

關聯偏差:當機器學習模型的數據強化和/或讓文化偏差成倍增加時,將發生這種偏差。你的數據集可能包含一組工作,其中所有男性都是醫生,所有女性都是護士。這并不意味著女人不能當醫生,男人不能當護士。然而,就機器學習模型而言,女醫生和男護士并不存在。關聯偏見最出名的是制造性別偏見,這一點在挖掘人工智能研究中可見一斑。

 

如何避免機器學習項目中的數據偏差?

在機器學習項目中防止數據偏差是一個持續的過程。盡管有時很難知道數據或模型何時存在偏差,但我們可以采取許多步驟來幫助防止偏差或及早發現偏差。下面的內容就是機器學習項目出現數據偏差時的一些常規手段:

  • 盡較大努力,提前研究我們的用戶。記得要注意我們的一般用例和潛在的異常值。
  • 確保我們的數據科學家和數據標簽團隊多元化。
  • 在可能的情況下,結合來自多個來源的輸入,以確保數據的多樣性。
  • 為數據標簽創建黃金標準。黃金標準是一組數據,反映任務的理想標記數據,能讓我們能夠測量團隊的注釋的準確性。
  • 為數據標簽期望制定明確的準則,以便所有的數據標簽者都能對期望值保持一致。
  • 對于數據準確性可能容易出現偏差的所有項目,記得使用多通道注釋。這方面的示例包括情緒分析、內容審核和意圖識別。
  • 獲得具有領域專業知識的人的幫助,檢查我們收集和/或注釋的數據。團隊外部的人可能會更容易看到團隊所忽視的偏差。
  • 定期分析我們的數據。跟蹤錯誤和問題區域,以便快速響應和解決錯誤和問題區域。在決定刪除或保留數據點之前,請仔細分析數據點。
  • 將偏差測試作為開發周期的一部分。谷歌、IBM 和微軟都發布了工具和指南,用于幫助分析對多種不同數據類型的偏差。

總結

了解任何數據項目的機器學習中的潛在偏差是非常重要的。通過盡早建立正確的系統并控制數據收集、標記和實現,我們可以在問題出現之前或在它出現之時做出反應,從而減少我們的成本,提高模型的準確率。

責任編輯:華軒 來源: 今日頭條
相關推薦

2018-10-18 11:00:50

人工智能機器學習模型偏差

2024-05-21 09:45:40

機器學習人工智能XAI

2019-06-19 08:14:14

數據庫驅動URL

2020-11-08 13:33:05

機器學習數據中毒人工智能

2014-06-30 10:58:02

機器學習

2020-09-18 09:13:46

數據結構元素

2020-10-08 14:32:57

大數據工具技術

2023-01-14 15:32:00

云原生大數據架構

2020-04-29 16:49:33

機器學習人工智能計算機

2022-03-01 20:41:00

機器學習特征人工智能

2022-07-03 08:25:09

OSITCP/IP

2024-04-26 00:01:00

Go語言類型

2021-09-17 13:34:57

大數據Redis 應用

2022-10-28 13:48:24

Notebook數據開發機器學習

2024-05-07 08:49:36

Hadoop數據存儲-分布式存儲

2019-07-04 15:16:52

數據挖掘大數據算法

2022-07-28 09:02:41

文件存儲系統

2020-08-27 07:34:50

Zookeeper數據結構

2018-08-08 16:08:45

深度學習機器學習NLP

2010-05-26 17:05:48

MySQL數據類型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲国产精品一区二区第一页 | 97人澡人人添人人爽欧美 | 国产一伦一伦一伦 | 成人精品一区二区户外勾搭野战 | 91av在线视频观看 | 精品二区 | 日韩在线第一 | 91天堂 | 看av电影| av网站在线播放 | 久久精品国产亚洲 | 日韩在线电影 | 国产精品综合网 | 亚洲电影一区二区三区 | 亚洲激情专区 | 欧美一级三级在线观看 | 亚洲精品自在在线观看 | 国产最新精品视频 | 狠狠狠色丁香婷婷综合久久五月 | 成人做爰www免费看 午夜精品久久久久久久久久久久 | 欧美视频一区二区三区 | 久久综合一区二区 | 精品一区二区三区在线观看国产 | 黄色毛片大全 | 欧美片网站免费 | 精品国产免费一区二区三区五区 | 亚洲欧美成人影院 | 久久精品中文 | 久久久久国产 | 精品久久久久一区二区国产 | 欧美亚洲一区二区三区 | 亚洲成av人影片在线观看 | 91精品国产综合久久精品 | 一区二区三区国产 | 91精品久久久久久久 | 欧美xxxx网站 | 国产精品乱码一区二区三区 | 亚洲成人免费视频在线观看 | 日本理论片好看理论片 | 嫩草网| 成人国产精品免费观看 |