算法師:打開數據復雜世界黑匣子的人
本文摘自維克托·邁爾-舍恩伯格與肯尼迪·庫克耶合著的《大數據:改變我們生活、工作、思考的革命》
現在的電腦系統是根據編寫程序時明確要求它們遵循的規則來進行運算的。因此,當一個結果偶爾無可避免地出錯的時候,我們可以回過頭去,看看電腦是如何得出這個結果的。比如說,我們可以問“為什么外部傳感器發現濕度突然大幅上升時,自動駕駛系統會將飛機抬高五度?”今天的電腦代碼可以被打開檢查,知道如何翻譯代碼的人可以追蹤并理解運算的基礎,無論這個基礎如何復雜。
但是,有了大數據分析之后,這種追蹤就會變得困難許多。算法預言的基礎可能會復雜得讓常人難以理解。
當電腦根據程序編寫的明確要求遵循系列指令,比如IBM在1954年發展的將俄語翻譯為英語的程序,人可以輕易理解為什么軟件會用一個詞代替另一個詞。但谷歌翻譯在判斷英語單詞“light”是該翻譯成法語的“lumière”還是“léger”時(即描述光還是重量),卻動用了數十億頁的翻譯資料。一個人不可能追蹤到程序作出最后選擇的準確原因,因為這些選擇是基于海量的數據和大量的統計運算的。
大數據運作的規模也超乎我們的想象。比如,谷歌分辨幾個搜尋關鍵詞和流感的關聯是測試四億五千萬個數學模型的結果。相對地,辛西婭?魯丁(Cynthia Rudin)為檢修孔是否會著火設計了106預測指標,而且她可以向聯合愛迪生電力公司的經理們解釋為什么她的程序優先了某些檢查位置。人工智能界所說的“可解釋性”,對于我們常人來說是很重要的,我們總是想知其所以然,而不僅是知其然。可是,如果系統自動生成了601個預報,而不是106個呢?如果這601個中大多數都不是特別重要,但把它們放在一起,就會提升模型的精確性?任何預報的基礎都可能非常復雜。要說服經理們重新分配有限的預算,她該告訴他們什么呢?
在這個情景中,我們可以看到,大數據預報的風險,及其背后的算法和數據集,可以變得無法問責、不可追蹤、甚至不可信的黑匣子。要防止這樣的事情發生,大數據需要監控和透明,這就要求新的專業知識和機構。這些新成員會幫助社會仔細檢查某些領域的大數據預報,會讓被數據傷害的人得到平反。
在社會上,當一個特定領域的復雜性和專業性大幅上升,因而對管理新技術的專家產生緊急需求時,我們常會看到這些新實體出現。法學、醫學、會計和工程學的專業人才在超過一世紀前就經歷了這種巨變。最近,電腦安全和隱私專家突然冒起,以保證公司遵從諸如國際標準組織這樣的機構訂立的最佳操作準則(該組織本身就是成立來滿足該領域對指引的新需求的)。
大數據會需要新的一群人來擔當這個角色。也許他們會被稱為“算法師”。他們可能分兩類——從外部監測公司的獨立實體,或從內部監測公司的雇員或部門——就像公司有內部會計師和外來審計師來檢查財務一樣。

算法師的崛起
這些專業人士會是計算機科學、數學和統計學方面的專家;他們會檢查大數據的分析和預報。算法師必須中立并保密,就像會計師和其他一些職業現在所做的那樣。他們會評價數據源的選擇,分析和預報工具的選擇,包括算法和模型,以及對結果的闡釋。在有爭議時,他們會獲取得出某個結果的算法、統計方法和數據集。
如果2004年的時候國土安全局有算法師,他就可能防止該局產生一張如此多錯誤的禁飛名單,上面竟然還有參議員肯尼迪。在日本、法國、德國和意大利,最近都有算法師本可以有所作為的例子,這些國家的人們抱怨說谷歌的“自動完成”功能誹謗了他們,這個功能會根據一個輸入的名字產生一系列常見的搜索關鍵詞。這些詞基本是基于過往搜索的頻率得出的:詞語根據概率排列。盡管如此,當一個潛在的商業伙伴或情人上網查我們的時候,我們的名字跟“罪犯”或“妓女”放在一起的,誰能不生氣呢?
我們預想中的算法師是為像這樣的問題提供市場導向的解決方法的人,他們的存在可能減少過分的規范管制。他們滿足的需求與會計師和審計師在二十世紀早期出現應對泛濫的金融資訊所滿足的需求是相似的。洶涌而來的數字讓人難以理解。它要求專家以靈活而自律的方式組織在一起。市場的反應是讓專門進行財務監察的有競爭力的公司形成一個新興行業。通過提供這種服務,新型職業提升了社會對經濟的信心。算法師可提供類似的信心提升,大數據按說能夠并應該從中獲益。#p#
外部算法師
我們眼中的外部算法師可以在政府需要的時候,比如法庭發出命令或頒布規章,以中立審計師的身份檢查大數據預報的準確性或合理性。他們也可以把大數據公司當成客戶,給需要專業支持的公司提供審計服務。他們可以保證大數據應用軟件的穩定性,例如反欺詐技術或庫存盤點系統。最后,外部算法師可以為政府部門提供關于如何在公共領域最好地利用大數據的咨詢服務。
如同醫學、法學或其他專業一樣,我們認為這個新行業會有一套行為準則來規管自己。算法師的中立性、保密性、競爭力和專業性是通過嚴格的問責規則來保證執行的。如果他們不能符合標準,他們就會惹上官司。他們也可以在庭審中被傳召為專家證人,或“聆案官”,這些是由法官任命來協助審理某些復雜案件中的技術問題的。
另外,那些認為自己被大數據預報傷害的人——被拒絕實施手術的病人,被拒絕保外就醫的犯人,被拒絕抵押貸款的申請人——可以請算法師,就像請律師一樣,幫忙分析和提出上訴。
內部算法師
內部算法師在機構的內部監察大數據活動。他們不僅關注企業的利益,還關注被企業的大數據分析影響到的人的利益。他們監督大數據操作,任何人覺得自己被該機構的大數據預告傷害到的時候,內部算法師是他們第一個聯絡的人。他們在數據公布前檢查分析的完整性和準確性。要完成頭兩個任務,算法師必須在他們供職的企業內享有一定程度的自由和中立性。
一個雇員對公司的運作保持中立的想法看起來可能有點反直覺,但這樣的情況其實是挺普遍的。主要金融機構的監察部門就是一個例子。許多公司的董事會也是,他們要對股東而非管理層負責。許多媒體公司,包括《紐約時報》和《華盛頓郵報》都會請監察員,他們的基本職責就是保護公眾的信任。這些雇員處理讀者的投訴,并常在確定雇主有錯時,公開譴責他們的雇主。
與內部算法師更相近的一個例子是,負責保證個人資料不被公司濫用的專業人士。舉個例子,德國要求一定規模以上的公司(一般是有十個或以上雇員負責處理個人資料)安排一名數據保護代表。自二十世紀七十年代開始,這些內部代表發展起了一套職業操守和團隊精神。他們定期開會,分享最好的做法和訓練,并有他們自己的媒體和研討會。另外,他們已經成功保持對其雇主及其中立檢察人員身份的忠誠,一方面作為數據保護檢查員,另一方面通過公司行為貫徹信息隱私的價值觀。我們相信內部算法師也可以做到。
打開黑匣子
沒有任何簡單的方法可以讓我們充分準備好迎接大數據的世界。它要求我們建立新的準則以規管自己。我們實際操作上的一系列重要改變可以在社會逐漸熟悉大數據的特點和缺點時提供幫助。我們必須設計保障,讓新的“算法師”專業階層可以評估大數據分析——這樣一個因為大數據而變得難以掌握的世界才不會變成一個黑匣子,用一種不可知代替另一種不可知。
維克托·邁爾-舍恩伯格,牛津大學網絡學院互聯網研究所治理與監管專業教授,世界大數據領域對他的推崇并非空穴來風。英國新聞周刊《經濟學人》曾經將維克托·邁爾-舍恩伯格定義為大數據領域最受人尊敬的權威發言人之一。由世界著名科學家托馬斯?愛迪生創辦的《科學》周刊更認為,若要發起一場關于大數據的深入討論,沒有比維克托?邁爾-舍恩伯格更好的發起者了。 2010年,維克托·邁爾-舍恩伯格就已經開始對該領域進行了系統而深入的研究,并在《經濟學人》上和數據編輯肯尼思? 庫克耶一起,發表了長達14頁的大數據專題文章,成為最早洞見大數據時代發展趨勢的數據科學家之一。