人工智能中 5 個讓人意想不到的誤差來源
譯者 | 開源中國 Ley, snake_007, 西直門交警, xubing0x00, 無若
我們傾向于認為機器是沒有血肉,沒有個人思想,但能提供精準計算的東西,尤其是智能機器。我們相信自駕汽車沒有私心,在判斷司機和路人生命孰重孰輕時不會有偏袒。
我們相信智能評估系統在進行評估時,會拋開所以主觀因素,做出客觀的判斷,如收入和 FICO 值。我們也相信學習系統會基于事實給出客觀結論,因為驅動它們工作的是無偏差算法。
有些人認為,不包含人類情感的機器存在 bug:它們應該有人類一樣的思維模式。而另一些人認為:機器就是機器,不應帶有人類的主觀思想。還有一種折中的觀點認為,它們可以有主觀的思想,但應做出客觀的判斷。
而現實情況是,很少有智能系統可以做到毫無誤差,而且誤差的來源有很多途徑,如,訓練系統的數據導致的誤差,交互誤差,突發情況引起的誤差,相似性誤差和目標沖突導致的誤差等。
這些誤差通常難以被人察覺,但在我們構建和部署智能系統,需要對它們有一定的認識,這樣才可以在設計時有意識的避免可能引起的問題。
數據驅動偏差
對于任何學習系統,輸入的數據決定了輸出。這并不是一個新的觀點,但當看到系統被數以百萬的示例數據驅動時,我們往往會忘了這個觀點。人們往往會想:海量的數據可以將人類造成的誤差碾壓成渣渣。但是如果訓練集本身就有偏斜的話,結果也可想而知。
最近,這種偏差已經在深度學習的圖像識別系統中初露端倪。尼康的“亞洲面孔困惑”和惠普的膚色問題似乎都是偏斜示例集的產物。雖然兩者都是無意識產生并且都是可修復的,但這也表明了:如果我們不注意數據源偏差的問題的話,這種問題就會出現。
除了面部識別領域,更有其他對現實世界造成影響的情況。機器學習系統會用于建立一些用于預測被假釋人員的再犯罪概率,犯罪模式,或者預測潛力雇員的規則集。
這樣在這些領域會有潛在的負面的影響。當我們用有偏差的數據源訓練系統時,如果數據源是和諧的但系統的決策算法有偏斜,也會使偏差延續下去。
交互引入的誤差
在某些系統通過大量的全集例子來學習的同時,另外一些系統通過交互來學習。因此,由于交互中的用戶本身帶有偏見或者局限性,機器學習就可能在此基礎上產生誤差/偏見。
這種誤差的一個非常典型的例子就是微軟的 Tay。Tay 是一個 Twitter 的聊天機器人,被設計為通過和用戶交互來學習。然而 Tay 受到某一社區影響,會產生種族歧視和女性歧視的言論。
事實上,這個用戶社區不斷地向 Tay 發出帶有侵犯性的言論,從而使得 Tay 的系統以這些言論為材料做出回復。
Tay 僅僅存在了 24 個小時就因上述情況被微軟關閉了。雖然 Tay 發出的種族歧視言論只被限制在 Twitter 范圍內,但它指示了世界的真實現實。當我們構建通過和人類伙伴交互而做決定并且學習的智能系統時,同樣糟糕的訓練問題也會出現在更多的情況之下。
考慮到我們對于機器做決定的不信任,試想如果我們給智能系統配備一個長期指導導師會發生什么?從 Tay 的事件中,我們知道了這些系統會從它們周圍的環境和人那里學習到“偏見”,不管好壞,都反映出了訓練它們的人類的觀點.
新生成的誤差
有時,系統為個性化而做的決策將會導致誤差“泡沫”的產生。我們可以從 Facebook 當前的狀態中看到這種誤差。在最頂層,Facebook 用戶可以看到他們朋友的博文,并和他們共享信息。
不幸的是,任何分析輸入數據流并提供其他內容的算法將會給用戶提供已經看到過的內容。這一效果在用戶打開、喜歡和分享內容的情況下進一步被放大。結果導致信息流更加傾向于用戶已有的興趣集。
雖然這么做體現了個性化,也能讓人放心,但不是我們認為的新聞的樣子。信息泡沫是“確定性誤差”的算法版本。用戶無需再過濾那些與自己信仰相沖突的信息,因為系統已經自動將其過濾。
這些信息誤差在新聞界造成的影響給人帶來許多困擾。但在企業中,我們把社交媒體的模型用于支持決策制定,支持產生信息泡沫的系統更能影響我們的認知。知識份子僅從與他觀點相似的人那里得到信息,將無法看到對立的觀點,會忽略和否認其他的觀點,導致體現問題不全面。
相似性偏差
有時偏差僅僅是系統在完成設計初衷的產物。比如,Google News,設計初衷是通過使用相關故事集匹配用戶查詢來提供故事。這明顯是它設計的目的,而且它完成的非常好。當然,返回的結果是一些相互直接有關聯的相似故事集合。也就是說,它們定義了與 Facebook 個性化類似的信息泡沫。
這種模式突出顯示了新聞的作用及其傳播的問題——最明顯的是信息的平衡方法。“編輯控制”的缺失影響范圍巨大。雖然相似性是信息世界里一個強大的衡量標準,但它不是唯一的。
不同的觀點為決策提供了有力的支持。如果信息系統僅依靠“類似于”查詢或現有文檔提供查詢結果,就容易產生“信息泡沫”。
相似性偏差更傾向于被接收,而對立、反向和沖突的概念提倡的是創造與革新,這種概念在企業中尤為重要。
沖突的目標偏差
有時系統設計是有非常具體的商業目的的,而真實的偏差完全是在意料之外。
比如,一個旨在為潛在候選人提供職位描述的系統。當用戶點擊職位描述時,系統就會生成薪資。所以自然地,算法的目標是提供獲得***點擊數的職位描述。
事實證明,人們傾向于點擊那些能滿足自我期望的職位,通過簡單地介紹,可以加強人們對這一職位的刻板印象 [注:刻板印象主要是指人們對某個事物或物體形成的一種概括固定的看法,并把這種觀看法推而廣之,認為這個事物或者整體都具有該特征,而忽視個體差異。]。
舉例來說,女性傾向點擊的工作標簽是“護理”,而不是“醫療技術人員”。這并不是因為“護理”工作比較好,而是因為刻板印象,使得這一工作與她們的決定匹配起來。
刻板印象在行為上的影響體現在:一個人刻板印象(例如:性別,人種,族群)與工作選擇相關聯。因此,大多數網站基于點擊行為的學習組件都會利用刻板印象帶來的影響。
機器誤差由人工導致
理想狀態下,智能系統及其算法是客觀的。但這些系統是由人工建立的,所以我們的誤差會導致機器的誤差。 通過對誤差本身及問題的根源進行了解,有利于我們避免誤差的產生。
我們沒法創建完全沒有誤差的工具,但我們能盡量縮小誤差的范圍。