成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文讀懂機器學習中的模型偏差

人工智能 機器學習
在人工智能(AI)和機器學習(ML)領域,將預測模型參與決策過程的手段越來越常見,但難點是決策者需要確保這些模型不會根據模型預測做出偏見或者不公平的決策(有意或無意的歧視)。

在人工智能(AI)和機器學習(ML)領域,將預測模型參與決策過程的手段越來越常見,但難點是決策者需要確保這些模型不會根據模型預測做出偏見或者不公平的決策(有意或無意的歧視)。設想一下銀行業、保險業和就業等行業,在確定面試候選人、批準貸款/信貸、額定保險費等環節中使用模型作為解決方案,如果最終決策出現偏差,對最終用戶造成的傷害有多大?因此,對于研究ML問題的產品經理、業務分析師和數據科學家來說,理解模型預測偏差的不同細微差至關重要。

什么是ML模型的公平和偏差

機器學習模型中的偏差是由缺乏足夠的特征和用于訓練模型的相關數據集不全面引起的。鑒于用于訓練模型的特征和相關數據是由人類設計和收集的,數據科學家和產品經理的偏見可能會影響訓練模型的數據準備。例如:在收集數據特征的過程中,遺漏掉一個或多個特征 ,或者用于訓練的數據集的覆蓋范圍不夠。換句話說,模型可能無法正確捕獲數據集中存在的基本規則,由此產生的機器學習模型最終將出現偏差(高偏差)。

可以通過以下幾個方面進一步理解機器學習模型偏差:

缺乏適當的功能可能會產生偏差。這樣的模型是欠擬合的,即模型表現出高偏差和底方差。  缺乏適當的數據集:盡管功能是適當的,但缺乏適當的數據也會導致偏見。大量不同性質的(覆蓋不同場景的)數據可以解決偏差問題。然而,必須注意避免過度高方差,這可能會影響模型性能,因為模型無法推廣所有類型的數據集。

如果發現模型具有高偏差,則該模型將被稱為不公平,反之亦然。需注意的是,減少偏差的嘗試可能會導致具有高方差的高復雜度模型。下圖代表了模型在偏差和方差方面的復雜性。

注意:隨著偏差的減小,模型越來越復雜,可能會出現高方差?! ?/p>

\ 

如何測試ML模型的公平/偏差

想要測試ML模型是公平的還是存在偏見的,首先要了解模型的偏見程度。常見的方法是確定輸入值(與特征相關)在模型預測/輸出上的相對重要性。確定輸入值的相對重要性將有助于使模型不過度依賴于討論部分的受保護屬性(年齡、性別、顏色、教育等)。其他技術包括審計數據分析、ML建模流水線等。

為了確定模型偏差和相關的公平性,可以使用以下框架:

Lime  FairML  SHAP  Google What-If  IBM Bias Assessment Toolkit

偏差的特征和屬性

以下是導致偏差的常見屬性和特征

種族  性別  顏色  宗教  國籍  婚姻狀況  性取向  教育背景  收入來源  年齡

考慮到上述特性相關的數據可能導致的偏差,我們希望采用適當的策略來訓練和測試模型和相關性能。

AI偏見在行業中的示例

銀行業務:由于系統中引入的模型,其訓練數據(如性別、教育、種族、地點等)存在偏見,導致一個有效的貸款申請人貸款請求被拒?;蛘咭粋€申請人的貸款請求被批準,但其實他并不符合批準標準。

保險:因為預測模型數據集涵蓋的特征不齊全,導致一個人被要求支付高額的保險費。

就業:一個存在偏見的機器學習模型,根據候選人的種族、膚色等屬性錯誤的篩選候選人的簡歷,導致有資質的候選人被篩選掉,致使公司錯失聘用優秀候選人的機會。

住房:在住房領域,可能會因為位置、社區、地理等相關數據,在引入過程中出現偏差,導致模型具有高偏見,對房價做出了錯誤的預測,最后致使業主和客戶(買方)失去交易機會。

欺詐(刑事/恐怖分子):由于訓練模型對種族、宗教、國籍等特征存在偏見,將一個沒有犯過罪行的人歸類為潛在罪犯且進行審問。例如,在某些國家或地區,某一宗教人士被懷疑成恐怖組織。目前,這變成了個人偏見的一部分,而這種偏見在模型中反應了出來。

政府:假設政府給某一特定人群設定政策,機器學習負責對這些計劃中的收益人群進行分類。模型偏見可能會導致本應該享受相關政策的人群沒有享受到政策,而沒有資格享受相關政策的人卻成為政策受益人。

教育:假設一位學生的入學申請因為基礎的機器學習模型偏見被拒絕,而原因是因為使用模型訓練的數據集不全。

金融:在金融行業中,使用有偏差的數據建立的模型會導致誤批申請者的貸款請求,而違反《平等信貸機會法》。而且,誤批之后,用戶會對最終結果提出質疑,要求公司對未批準原因進行解釋。

1974年,法律規定,禁止金融信用因為種族、膚色、宗教、性別等屬性歧視任何人和組織。在模型構建的過程中,產品經理(業務分析師)和數據科學家需要盡可能考慮所有可能情況,確保構建模型(訓練或測試)的數據的通用和準確,無意中的一絲細節就可能導致偏見。

總結

通過閱讀本文,您了解了機器學習模型偏差、偏差相關的屬性和特征以及模型偏差在不同行業中的示例。導致偏差的原因可能是因為產品經理或數據科學家在研究機器學習問題時,對數據特征、屬性以及用于模型訓練的數據集概括不全面,導致機器學習模型無法捕獲重要特征并覆蓋所有類型的數據來訓練模型。具有高偏見的機器學習模型可能導致利益相關者采取不公平/有偏見的決策,會嚴重影響整個交易過程甚至是最終客戶的利益。

責任編輯:龐桂玉 來源: CIO時代
相關推薦

2023-05-11 15:24:12

2017-10-24 11:19:16

深度學習機器學習數據

2020-11-08 13:33:05

機器學習數據中毒人工智能

2022-07-26 00:00:03

語言模型人工智能

2025-05-20 11:55:22

人工智能Vision RAGLLM

2020-11-02 16:29:23

機器學習技術人工智能

2023-12-27 14:03:48

2025-04-07 08:40:00

開源Llama 4大模型

2017-03-07 15:13:28

Scala偏函數函數

2022-04-20 11:10:17

bias推薦系統debias

2018-10-08 15:22:36

IO模型

2023-12-22 19:59:15

2021-08-04 16:06:45

DataOps智領云

2024-05-16 11:34:55

2018-09-28 14:06:25

前端緩存后端

2022-09-22 09:00:46

CSS單位

2025-04-03 10:56:47

2022-11-06 21:14:02

數據驅動架構數據

2025-05-09 09:00:00

模型融合人工智能神經網絡

2023-09-17 23:09:24

Transforme深度學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品一区二区三区四区五区 | 国产精品日产欧美久久久久 | 亚洲午夜视频在线观看 | 麻豆久久久久久 | 成人一区av | 国产激情在线播放 | 国产精品不卡 | 91小视频 | 日韩乱码av | 亚洲一区二区精品视频 | 久久黄网| 亚洲欧美中文日韩在线v日本 | 欧美黄色片 | 久久久青草婷婷精品综合日韩 | 色久五月 | 成年人在线观看 | 久久久久国产精品 | 久久99精品久久久久久国产越南 | 宅女噜噜66国产精品观看免费 | 视频精品一区 | 欧美在线视频一区 | 999免费观看视频 | 国产一区欧美 | 青娱乐自拍| 久久成人高清视频 | 欧美日韩一区精品 | 精品欧美乱码久久久久久 | 国产美女黄色 | yeyeav| 国产一区二区三区在线 | 天天综合成人网 | 欧美一a | 欧美寡妇偷汉性猛交 | 国产二区在线播放 | 亚洲视频一区二区 | 91pao对白在线播放 | 欧美日韩国产高清 | 中国一级大毛片 | 欧美精品一区二区三区四区 | 免费v片在线观看 | 日韩成人在线观看 |