移動位置數據帶來“匿名風險” 解密隱私權公式
科學家稱,通過少量的地理位置信息就可以非常容易地判定一名手機用戶的身份。
只要手機處于開機狀態,其網絡連接性都意味著用戶的位置和行動可被標繪出來。這種數據會以匿名的方式被提供給第三方,從而讓用戶能獲得更好的服務,同時也能讓廣告主更加精確地找到目標客戶。但在《科學報告》(Scientific Reports)上的一份研究報告發出警告稱,人類的運動模式具有很大的可預見性,以至于僅靠4個數據點就能判定一名用戶的身份信息。
手機和智能手機應用的日益普及已經帶來了一個新時代。在這個時代中,海量的用戶數據已經變得能被那些管理和分發數據的公司所獲得——有些時候是以“匿名”或是聚合數據集的方式而公開的。
對于廣告主和服務提供商來說,這些數據非常有價值,但對其他人來說也同樣很有價值,比如那些正在規劃購物中心和分配應急服務的人,或是新一代的社會科學家等。但是,“位置服務”的蔓延和發展速度已經超出了人們的理解范圍,使其無法明確把握位置數據能如何對用戶隱私權和匿名造成影響。舉例來說,衛星導航廠商長期以來一直都在使用來自于手機和衛星導航服務本身的數據來改進路況信息報告,具體方式是計算用戶在特定道路上正在以多快的速度前進。
在這些計算中所使用的數據都是“匿名的”——也就是說,這些數據不會包含手機號碼或個人細節信息。但有一些例子證明,有名無實的所謂“匿名”數據能通過怎樣的方式與用戶身份聯系到一起,其中最出名的例子是AOL在2006年發布的一些數據,這些數據對2000萬次匿名的網絡搜索進行了概括。《紐約時報》在對這些數據略做“偵查”后發現,很容易就能判定其中一位代號為“4417749號搜索者”的身份信息。
移動軌跡
最近以來的研究工作日益表明,人類的運動模式無論看起來多么具有隨機性和不可預見性,但在實際上這種隨機性和不可預見性的范圍都是非常有限的;事實上,運動模式能在某種程度上被作為一種“指紋”,讓人能判斷出人們的身份。《科學報告》上的***研究報告指出,這些位置數據雖然只具備“低分辨率”,但也仍舊能被用作識別人們身份的獨特標記。
麻省理工學院和比利時魯汶大學(Catholic University of Louvain)的研究者對150萬名用戶在15個月中的匿名手機記錄進行研究后發現,通過所謂的“移動軌跡”(mobility trace)——也就是每一部手機顯而易見的行進路線——只需要4個地點和時間點就足以識別出一名特定用戶的身份信息。
“在二十世紀三十年代,你需要12個數據點才能排他性地鑒別和刻畫一個指紋。”這份研究報告的主要作者、麻省理工學院學者Yves-Alexandre de Montjoye說道。“我們在這次研究中所做的也是同樣的事情,只不過是通過追蹤‘移動軌跡’的方式來進行研究的。人類運動的方式和行為是如此獨特,以至于只需要4個數據點就足以鑒別出95%的人的身份。”
“我們認為,這種數據的可獲得性比人們想象中的要高。這些數據是指,舉例來說,如果你在手機上使用WiFi網絡或是打開任何應用,就會提供我們所說的那種移動數據。”de Montjoye說道。“當你共享信息時,你會看看周圍,感覺身邊有許多人在——比如說在購物中心或是旅游勝地——然后就會覺得這并非什么敏感信息。”
隱私權公式
這個研究團隊隨后又對這些數據需要具有多“高分辨率”——也就是一個位置的精度——才能更加全面地確保隱私權的問題進行了研究,并得出了量化數據。報告的聯合作者之一凱撒·海德爾格(Cesar Hidalgo)稱,移動數據遵循一種天然的數學模式,能被用作分析引導工具,原因是更多的位置服務和高分辨率數據已經變得可用。
“我們的想法是,在抓取這種信息的分辨率與匿名性之間存在一種天然的權衡關系,這種權衡所借助的就是分辨率和運動模式的獨特性。”海德爾格在接受BBC新聞頻道采訪時說道。“根據上最根本的問題就在于,由于現在數據已經具有較高的分辨率,因此這種權衡就變成了數據的有用性多高與數據到底是否能夠匿名之間的關系。如果你所擁有的數據是在一天以內的,那么交通流量預測服務就無法運作;你需要一個小時以內或是幾分鐘以內的數據。”
海德爾格指出, 想要把“移動軌跡”與某個人的身份信息聯系到一起,那么就還需要更多的信息;但是,用戶會通過帶有地理位置信息的Twitter消息以及Foursquare等地理位置“簽到”服務提供這種信息。