大數據中的偏見:如何發現它并減輕其影響
數據管道的不同部分都會產生偏見。人們非常關注在分析過程中可能出現的偏見,但其實偏見可能出現在數據管道的更早期階段。
俄亥俄州立大學柯萬種族研究所高級研究員Kelly Capatosto表示,偏見有可能早在收集數據前就進入數據生命周期。
她說:“如果有人基于調查結果來確定程序、模型或算法的運行方式,那么設計師的先入為主的觀念可能最終會融入到該過程中。”
現在對大型數據集及其所包含的偏見的審查越來越多。在目標市場營銷等領域中故意偏見可能會有所優勢,因為數據偏見可以提供更直接的見解,但大數據偏見會很快成為企業面臨的問題。
下面是發現偏見和減輕其影響的方法:
在哪里找到它
Enterprise Strategy Group(ESG)的高級分析師Mike Leone說:“偏見出現在數據生命周期的早期。”
即使在數據收集過程中,也可能會無意中包含偏見。正如Capatosto所說,某些偏見可能會根深蒂固于用于收集數據的調查中,但是由于訪問障礙,偏見也可能出現數據收集過程。最近的美國人口普查就是一個例子。
Capatosto說:“語言、貧困、獲取技術等方面存在障礙,這使得很難將這種信息有意義地整合到任何給定過程中。”
另一件事是混雜。Capatosto說,算法偏差最突出的問題之一是將身份與一定程度的風險混為一談。
Capatosto說:“在醫療保健方面,這非常重要,它具有聯系人追蹤功能,以及如何利用大數據和其他措施來建立圍繞健康問題的公共設施和基礎設施。”
她引用了最近的一項研究,該研究發現某些社區據稱具有更普遍的醫療保健需求,但是滿足這些需求的參數是花在醫療保健上的錢。其他研究發現,費用是有偏見的參數,因為有時費用本身首先是獲取醫療保健的障礙。
雖然移除大數據中的惡意意圖偏見很重要,但有時有必要包含偏見。
Gartner公司副總裁Svetlana Sicular說:“如果數據量很大,你可能只想知道某個特定人群。”
Leone認為,故意偏見在某種程度上意味著分析重點。當涉及個性化或瞄準特定目標人群時,有偏見的數據集可以幫助實現這些目標。
他說:“偏見可為每位客戶提供真正定制的體驗。”
但是,使用目標數據集來定制受眾的體驗,并不會引起大數據偏差的大問題。更大的問題是無意識的偏見。
Sicular說:“無意的偏見可以源自不同的目的,包括惡意目的,例如使數據中毒或攻擊模型。”
Sicular表示,大數據無意偏見的示例是2019年Apple Card推出。在發行之后不久,該算法被發現為女性設置較低的信用額度。盡管蘋果和高盛(Goldman Sachs)聲稱這種歧視是無意的,但這樣的事情可能構成最大的問題,即大數據中出現無意的偏見。
Sicular說:“很多技術,很多平臺都試圖獲得可解釋性,解釋算法內部發生了什么。”
在整個數據管道中,建立這種可解釋性可以減輕無意識的偏見。Capatosto說,這需要首先了解和熟悉大數據偏見的概念。這里的關鍵是建立透明度和強大的數據治理流程,以消除數據集中的偏差。
她說:“首先,要確保問責制不僅僅是事后的想法。”
多元化團隊
Leone說,多元化的數據團隊可以確定何時需要故意偏見。Sicular說,一個由具有不同背景的人組成的團隊將根據他們的不同經驗提出疑問,這些經驗可能會改變方法。
她說:“一個人可能不會考慮某些事情。”
但是,如何聘用多元化的團隊很重要。目標不僅是擁有一支多元化的團隊來校準數據。 Capatosto說,從設計到部署的整個過程中,這些不同的觀點都是必要的。
她補充說,數據團隊的多樣性可以幫助減少大數據中的偏見。她說:“我認為,意見、觀點和優勢點的多樣性將始終有助于盡早發現這些問題。”