外媒質(zhì)疑美國安局天網(wǎng),或已誤殺千人
我們曾報(bào)道過美國國安局NSA一項(xiàng)名為“天網(wǎng)”SKYNET的計(jì)劃,根據(jù)The Intercept公布了一份文檔顯示,“天網(wǎng)”使用機(jī)器學(xué)習(xí)算法分析幫助NSA尋找潛在恐怖分子。如今,外媒卻在質(zhì)疑,這個(gè)項(xiàng)目可能已經(jīng)在巴勒斯坦“誤殺上千無辜平民”。
NSA:數(shù)據(jù)說了算 VS 專家:你們一派胡言
2014年,一名CIA和NSA前負(fù)責(zé)人宣稱:我們殺人是基于元數(shù)據(jù)的。其本意大概是,我們不會濫殺無辜……但是,一名來自“人權(quán)數(shù)據(jù)分析組織”(Human Rights Data Analysis Group)的數(shù)據(jù)科學(xué)家Patrick Ball對NSA提出強(qiáng)烈質(zhì)疑,他曾評價(jià)NSA機(jī)器學(xué)習(xí)算法“盲目樂觀”并且“一派胡言”。
自2004年以來,巴基斯坦地區(qū)死于無人機(jī)轟炸下的人數(shù)介于2500至4000人,其中絕大部分人被美國政府定義為“極端分子”。而從此前流出的幻燈片不難發(fā)現(xiàn),SKYNET機(jī)器學(xué)習(xí)程序早在2007年就在秘密開發(fā)中了。
SKYNET:披著大數(shù)據(jù)外衣的喪鐘
“天網(wǎng)”就是一個(gè)很典型的大數(shù)據(jù)業(yè)務(wù)應(yīng)用,程序進(jìn)行元數(shù)據(jù)收集并儲存到NSA云服務(wù)器,在提取所需相關(guān)信息之后運(yùn)用機(jī)器學(xué)習(xí)從事有針對性的識別。NSA將其運(yùn)用于巴基斯坦地區(qū),分析了巴基斯坦地區(qū)5500萬移動(dòng)電話記錄,其中包括手機(jī)通話數(shù)據(jù)(就是所謂的“DNR”或號碼識別數(shù)據(jù),如通話時(shí)間、持續(xù)時(shí)間、通話對象等等),用戶定位和旅程詳細(xì)情況,以及關(guān)機(jī)或換SIM卡操作。任何可疑的行為都會被做上記號。
簡而言之,NSA通過生活模式、社交網(wǎng)絡(luò)以及旅游行為三個(gè)維度來進(jìn)行數(shù)據(jù)的收集和計(jì)算。在得到了較為完整的元數(shù)據(jù)集之后,SKYNET可以速寫出人們典型的日常生活——某些人一起旅行、分享聯(lián)系人、在一起過夜、訪問其他國家或***移居。最終,NSA機(jī)器學(xué)習(xí)算法使用超過80種不同屬性為人們的“恐怖分子率”打分。
然而,就是這一權(quán)威機(jī)構(gòu)的科學(xué)算法卻出現(xiàn)一個(gè)令人大跌眼鏡的結(jié)果:
去年The Intercept公開了根據(jù)這一算法得分***的“恐怖分子”——竟然是一名受人敬仰的記者Ahmad Muaffaq Zaidan。
作為記者,Zaidan有著廣泛的通訊網(wǎng)絡(luò),并采訪過包括本拉登在內(nèi)的多名基地組織領(lǐng)導(dǎo)人。對于“天網(wǎng)”系統(tǒng)的誤殺,Zaidan十分憤慨。
解密“天網(wǎng)”為何疏而有漏
SKYNET的分類算法對元數(shù)據(jù)與基礎(chǔ)事實(shí)進(jìn)行分析,然后為每個(gè)人進(jìn)行打分。理論上真正的恐怖分子會得到高分。
想要訓(xùn)練出這樣的機(jī)器學(xué)習(xí)算法就像訓(xùn)練Bayesian垃圾郵件過濾器一樣:你要給它“喂食”已知的垃圾郵件和非垃圾郵件。從這些最為基本的“真理”中,算法便會掌握怎樣才能正確過濾垃圾郵件。
同理,“天網(wǎng)”項(xiàng)目中最為關(guān)鍵的部分便是算法的訓(xùn)練,而為數(shù)不多“已知恐怖分子”造成的局限性就顯現(xiàn)出來。
小編從華盛頓大學(xué)Data Lab數(shù)據(jù)學(xué)研究者CHI那里了解到,NSA在“天網(wǎng)”中采用的隨機(jī)森林算法在機(jī)器學(xué)習(xí)中很常用,而且一般來說效果也很好的,但是在用于發(fā)現(xiàn)恐怖分子時(shí)還存在諸多問題。
百科:隨機(jī)森林算法
隨機(jī)森林算法是采用用隨機(jī)的方式建立一個(gè)有很多不相關(guān)決策樹的森林,在得到森林之后,當(dāng)有一個(gè)新的輸入樣本進(jìn)入的時(shí)候,就讓森林中的每一棵決策樹分別進(jìn)行一下判斷,看看這個(gè)樣本應(yīng)該屬于哪一類,然后看看哪一類被選擇最多,就預(yù)測這個(gè)樣本為那一類。
Ball解釋道“天網(wǎng)”算法是通過10萬隨機(jī)挑選的個(gè)體和已知的7名恐怖分子進(jìn)行訓(xùn)練。NSA給算法提供6名恐怖分子,讓它找出第7個(gè)。
安全專家Bruce Schneier認(rèn)為政府在使用大數(shù)據(jù)時(shí)不同于其他情況:
“如果谷歌犯了個(gè)錯(cuò)誤,人們最多是看到一輛汽車的廣告而并不會想要購買。可如果政府犯了個(gè)錯(cuò),可能會傷及無辜人的性命。”
在NSA的測試中甚至出現(xiàn)了0.18%的錯(cuò)誤率,這就意味著在5500萬樣本中將近9.9萬人進(jìn)行了錯(cuò)誤標(biāo)記,而Ars暗示這一結(jié)果可能導(dǎo)致NSA對目標(biāo)發(fā)起無人機(jī)轟炸。
科技之光,還是科技之殤?
算法已經(jīng)開始統(tǒng)治我們的生活,用“天網(wǎng)”尋找恐怖分子這僅僅是個(gè)開始,采用相同邏輯尋找“毒販”、“抗議者”或“異見人士”的手段可能不久之后或已經(jīng)出現(xiàn)了。基于元數(shù)據(jù)的“殺人游戲”此刻就在進(jìn)行著,而千里之外的我們對此視而不見。倘若有天,“天網(wǎng)”認(rèn)定了你是恐怖分子,那時(shí)你該怎么辦?