成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何處理生產環境中的數據和機器學習偏誤?

譯文
人工智能 機器學習
您是否需要確定自己的數據集存在性別或種族方面的偏誤?是否需要確保所使用的機器學習模型沒有偏誤,即使數據有偏誤?如果您對上述問題的回答是肯定的,那么這篇文章就適合您閱讀。

譯者 | 布加迪

審校 | 重樓

您是否需要確定自己的數據集存在性別或種族方面的偏誤?是否需要確保使用的機器學習模型沒有,即使數據有偏誤?如果您對上述問題的回答是肯定的,那么這篇文章就適合您閱讀

偏誤簡介

偏誤是指有意識或無意識地傾向于某一特定群體,通常排斥其他人。對于屬于某些種族、民族、性別、能力和宗教群體的人來說,偏誤會導致歧視,并在機會和成功方面造成系統性障礙。在有偏誤的世界中生成的數據本身就是有偏誤的。創建和部署機器學習模型總是伴隨著顯著的偏風險。因此,機器學習解決方案環境應該提供人類可用的解釋檢測和糾正偏

問責制和可訪問性在處理偏誤方面至關重要。需要問責制確保任何注意到偏誤的人都能采取行動。生產環境機器學習系統的可訪問性便于及時處理偏。審計日志可以部分解決問責制。通過自動化和易于使用的UI/UX降低機器學習的進入門檻有助于提高可訪問性。

本文解釋如何通過針對數據和機器學習模型的系統來檢測和處理與數據相關的偏和與模型相關的偏按照定義,與數據相關偏誤數據集中已經存在的偏誤。比如在客戶流失預測用例中,90%的數據集可能含白人客戶,導致數據集存在種族偏誤。按照定義,與模型相關的偏誤指模型生成的偏誤。在這種情況下,由于白人占人口的90%,旨在盡量減小誤差模型可以更好地預測白人的流失,從而導致模型出現種族偏誤。使用這種模型采取行動防止客戶流失,會導致非白人群體得不到充足的服務。

數據偏誤的檢測

數據集的一些變量值比其他變量值更頻繁地出現時,就會出現第一種也是最常見的數據相關偏誤(代表偏誤)比如在臨床試驗中,90%的參與者可能是男性。

通過重新采樣數據平等地代表不同的群體,可以部分地處理代表偏誤。然而,當代表性不足的群體的信息和細節較少時,機器學習模型對這個群體的學習可能會較少。

當存在與目標特征高度相關的變量時,也會出現與數據相關的偏誤。為了根據某些敏感特征檢測偏誤,可以計算特征相關性即每列相對目標特征的相關性。用戶可以忽略可能導致偏誤的高度相關的敏感特征,比如性別或年齡。請注意,線性相關測量可能不適用于同時含離散特征和連續特征(即非線性相關性)的數據集。使用歸一化互信息有助于解決這個問題。

即使去除了敏感相關特征,也可能存在與那些敏感特征相關的其他特征。比如說,郵政編碼可能與種族高度相關。即使從模型構建中去除種族,保留郵政編碼仍然可能導致有偏誤的模型。根據變量之間的相關性對變量進行聚類或分組可能有助于檢測和去除這類相關特征。檢測復雜數據偏誤的另一種方法是為每個敏感特征創建機器學習模型。應該忽略機器學習模型中對這些敏感特征的預測貢獻最大的特征。

機器學習模型偏誤的檢測

對于與模型相關的偏誤,要同時考慮機器學習模型的輸入和模型的輸出預測。當數據集不平衡時,敏感特征可能與目標特征過于相關而導致偏誤。一些機器學習平臺在構建模型時分配自動類權重,以強調未充分代表的類。

機器學習模型解釋也有助于檢測和預防模型相關的偏誤。存在局部或全局特征的重要性,比如SHAPLIME,提供了關于每個特征的值如何影響模型結果的信息。比如說,如果年齡增加導致信用評分預測降低,那么模型具有與年齡相關的偏誤。然而,很難確定偏誤在模型中的確切位置。可以使用易于解釋的代理模型解釋,比如線性模型或決策樹。代理模型近似并解釋用于決策制定的底層機器學習模型。它們允許更細粒度地檢測偏誤。決策樹代理模型包含模型預測自動生成的微段,每個類似一個規則(比如說,如果代理類型是老年人,性別是男性,那么客戶就會流失

檢測到機器模型偏誤或任何其他問題)后,行動的容易程度和速度決定了解決集訓的速度有多快。創建共享數據和模型解釋可以幫助用戶更快地采取行動。

結語

你可以系統地檢測和預防數據和機器學習模型中的偏誤。比如通過雇用來自不同背景的用戶,并為他們提供人工智能,不僅有助于更好地檢測和預防偏誤還有助于糾正偏誤檢測系統或機器學習模型失敗或被人做手腳的情況。

原文標題:How To Handle Data And Machine Learning Bias In Production,作者:Zehra Cataltepe

責任編輯:華軒 來源: 51CTO
相關推薦

2019-02-25 08:35:22

機器學習數據模型

2025-03-31 08:04:50

MySQLCPU內存

2021-08-13 08:00:00

人工智能數據開發

2025-02-17 08:00:00

機器學習開發Docker

2020-06-24 07:53:03

機器學習技術人工智能

2017-03-20 09:25:10

機器學習采樣數據合成

2023-05-29 16:11:37

數據偏度數據集中

2023-03-09 12:21:38

2018-11-21 12:27:21

JavaScript 貨幣值區域

2011-07-06 10:18:24

數據虛擬環境存儲管理

2021-02-02 07:52:02

CSS短內容長內容

2019-11-08 08:00:00

ASP .NETASP .NET Cocookie

2013-06-04 09:16:29

Google存儲數據

2021-01-26 13:40:44

mysql數據庫

2019-08-08 08:00:00

深度學習機器學習神經網絡

2011-04-11 17:10:16

Oracle

2018-01-08 09:09:46

機器學習模型NET

2024-03-26 09:40:53

Linux優化

2012-07-30 09:35:10

項目管理

2023-08-18 10:34:29

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄视频国产 | 在线一区二区三区 | 91久久久久久久久 | 国产福利在线播放麻豆 | 一区二区三区四区国产 | 日韩在线视频免费观看 | 九九一级片 | 成人婷婷 | 福利久久 | www.一区二区三区 | 久久99精品久久久久久 | 天天拍天天色 | 99久久视频| jlzzjlzz欧美大全 | 国产在线不卡 | 免费观看一级特黄欧美大片 | 国产一级黄色网 | 欧美成人aaa级毛片在线视频 | 中文字幕亚洲一区 | 日韩成人中文字幕 | 日韩精品在线观看网站 | 久久精品成人 | 亚洲美女一区二区三区 | 老妇激情毛片免费 | 91热在线 | 欧美一区二区三区在线 | 亚洲高清在线 | 视频精品一区 | 91精品国产色综合久久 | 免费观看毛片 | 国产日韩欧美电影 | 国产剧情一区二区三区 | 老妇激情毛片免费 | 蜜月aⅴ国产精品 | 亚洲免费观看视频 | 国产一区久久 | 久久久蜜臀国产一区二区 | 欧美一区二区三区视频 | 国产激情在线观看视频 | 欧美日韩视频在线播放 | 香蕉一区|