大數(shù)據(jù)應(yīng)用的“傲慢與偏見”
美國有一個著名的數(shù)學(xué)博客叫MATHBABE.ORG(數(shù)學(xué)寶貝),其博主是數(shù)學(xué)達人CATHY ONEIL(凱茜·奧尼爾),她是心懷理想的人,辦博客的目的就是想回答好一個問題:“一個學(xué)術(shù)界以外的數(shù)學(xué)家怎樣能使世界更美好?”2016年9月,奧尼爾在Crown出版社出版了新著Weapons of Math Destruction:How Big Data Increases Inequality and Threatens Democracy(《數(shù)學(xué)殺傷武器:大數(shù)據(jù)如何加劇了不平等和威脅著民主制》)。Weapons of Math Destruction是大規(guī)模殺傷武器的意思,她把該詞組中的Mass改為發(fā)音很接近的Math ,就成為“數(shù)學(xué)殺傷武器”的意思了,這是很巧妙的文字游戲。
她于1999年在哈佛大學(xué)獲得數(shù)學(xué)博士學(xué)位,后來在麻省理工學(xué)院和巴納德學(xué)院從事過計算代數(shù)幾何的研究,在金融界工作過四年,包括在D.E. Shaw對沖基金當了兩年的定量分析師,發(fā)表過不少論著,如2013年發(fā)表的著作Doing Data Science: Straight Talk from the Frontline(《做數(shù)據(jù)科學(xué):來自***線的平實談話》),還有同一年發(fā)表的電子書On Being a Data Skeptic(《論如何做一名數(shù)據(jù)懷疑論者》)。在金融界工作幾年后,她對于對沖基金模型徹底失望了,對于大數(shù)據(jù)分析的不當應(yīng)用十分反感,還積極投身于“占領(lǐng)華爾街”運動。
可以說,美國人生活在算法時代。人們能上哪個學(xué)校、能否獲得購車貸款、健康保險的繳費標準是多少等各種決策,越來越多地由數(shù)學(xué)模型決定,而不是由人決定。從道理上說,這應(yīng)該導(dǎo)致更公平的結(jié)果,因為一切都按規(guī)則來處理,似乎就消除了偏見。遺憾的是,奧尼爾在書中指出,數(shù)學(xué)模型帶來的是更多的不公平。現(xiàn)在使用的很多數(shù)學(xué)模型是不透明的,未受到規(guī)制的,明明有錯卻容不得質(zhì)疑的。
她在新書中描述了廣泛應(yīng)用的一些數(shù)學(xué)模型是如何懲罰窮人、犒賞富人的,因為這些模型就是基于“成見、誤解與偏見”的。她將***傷害性的這類模型稱為“數(shù)學(xué)殺傷武器”,社會弱勢群體在求學(xué)、求職、借款、遭遇牢獄之災(zāi)的時候,都會收到這種武器的可怕傷害。例如,一些雇主利用信用評分來評價潛在的雇傭?qū)ο螅J為若是其信用評分不高,今后的工作表現(xiàn)也好不到哪兒去。其實,二者之間并不存在這樣的穩(wěn)定聯(lián)系。又如,以盈利為目標的大學(xué)會利用信用評分數(shù)據(jù)來發(fā)現(xiàn)那些易于被俘獲的群體,引誘他們?nèi)雽W(xué),最終往往使他們債臺高筑。再如,一些汽車保險公司在審查申請入險者資料的時候,不是看他們的駕駛記錄,而是看他們的消費模式。有的年輕人由于住在窮人區(qū),就申請不到貸款,從而上不起大學(xué)——某算法主要根據(jù)申請人家庭住址的郵政編碼,就作出了“貸款給他們有較大風(fēng)險”的判斷。還有,一些所謂的犯罪預(yù)測軟件的實際效果,是引導(dǎo)警員們?nèi)ヘ毨Ы謪^(qū)關(guān)注一些輕微滋事案件。她說,當片警動不動就把少數(shù)族裔的窮孩子當街攔住,推推搡搡,再警告一番,大數(shù)據(jù)的害處就明顯不過了。與此同時,這些數(shù)學(xué)模型總是將社會中的富足階層置于各種營銷筒倉內(nèi),使他們的生活“更智能化,更便捷”。她令人信服地論證說,我們必須更負責(zé)任地應(yīng)用數(shù)學(xué)模型,美國聯(lián)邦政府必須對大數(shù)據(jù)應(yīng)用加以規(guī)制。
當然,她寫作此書的目的并非反對大數(shù)據(jù)應(yīng)用,而是呼喚人們頭腦清醒,在利用大數(shù)據(jù)“興利”的同時一定要注意“除弊”。該書獲得很好的反響,出版不過一個月有余,已經(jīng)獲得“2016年國家圖書獎(非虛構(gòu)作品類)”的提名。