大數據化生活喜憂參半:可預測犯罪 可窺視居住
無處不在的海量信息現在正改變著整個世界和日常生活方式,一場大數據革命悄然來臨。大數據使掌控和邏輯管理我們未來生活的方方面面都有望成為現實。
牛津大學的維克托·邁克·舍恩伯格教授被譽為“大數據時代的預言家”,他將大數據對我們生活的影響稱為一場“變革”。
不少人都曾有過這種經歷——剛打開微博,網頁就給你推薦了一些“你可能認識的人”,而這些人里面,還真有不少你失去聯系多年的朋友、同學;打開購物網站,在網頁上顯示的推薦購物清單里頭,你真的發現了一些自己正打算購買的物品;打開新聞網站,系統推薦的新聞正中你的胃口。
其實,這些都有賴于“大數據技術”,這些網站通過分析你的瀏覽搜索習慣等眾多數據,分析出你的喜好、社交圈甚至是生活習慣……
喜
從大數據中贏得決斷
成功預測總統大選結果
去年美國總統大選時,數據專家納特·席爾瓦(Nate Silver)以大數據為基礎,成功預測了幾乎每個州的大選選情和最后的勝出者。當時奧巴馬和羅姆尼選情普遍認為很接近,評論員們都無法預計哪方會獲勝,席爾瓦以主要民調機構在各州不斷更新的訪查結果為基礎,計算出“真實”情況,指出二者并非處于旗鼓相當的局面。在投票當天他成功預測奧巴馬將有90.9%的機會獲得大多數選票,最后他對美國50個州投票結果的預測全對了。
事實上,2008年美國總統大選時,席爾瓦也預測對了最終結果,美國50個州的投票結果他預測對了49個。
預測罪案發生的時間地點
許多公共服務部門,尤其是警察局和安保機構,也開始享用大數據帶來的好處。一些城市已經運用大數據推算出了某些街區發生罪案的幾率。美國加利福尼亞州圣克魯茲市就是其中之一。
大數據算法可以計算出某時某地罪案(入室行竊、搶劫、偷車,但不包括殺人案)發生的幾率,在過去兩年中,該市的大約100名巡警在巡邏時會有針對性地出巡,他們攜帶的電子卡上會顯示出附近最有可能發生罪案的15處地點。而在三分之二的情況下,大數據算法預測的罪案都確實發生了。根據該市警察局局長克拉克的介紹,引入這個大數據算法后,該市的入室行竊案件減少了11%,偷車案減少了8%,相應的,逮捕罪犯的成功率則提高了56%。
現在,美國已經有超過10市的警察局引入了這個大數據算法,其中包括洛杉磯、波士頓和芝加哥。
相親、治病也靠它
除了為企業創造利潤,大數據還能為人類社會帶來別的好處。
對于許多人來說,他們生活中最私密的方面也已經開始依賴于這種機械算法的預測能力了。例如,許多在線相親機構都會要求你填寫一份非常詳細的問卷,然后根據大數據算法來提高你找到另一半的幾率。
本月初,英國首個綜合運用大數據技術的醫藥衛生科研中心在牛津大學成立。據介紹,這個研究中心通過搜集、存儲和分析大量醫療信息,確定新藥物的研發方向,從而減少藥物開發成本,同時為發現新的治療手段提供線索。
英國曼徹斯特大學的研究者們正在進行針對獨居老人的“魔毯”計劃。“魔毯”看起來就像一張普通的地毯,但是裝滿了用來記錄老人腳步的傳感器,這些數據會被上傳,計算機可以將之與老人健康時的腳步相比較,然后分辨出老人是否出現需要就醫的緊急情況,若是,則會自動觸發警報。#p#
入
“大數據”無處不在
谷歌公司在2009年比美國國家疾控中心更早知道甲型H1N1流感的暴發時間、地域;蘋果之父喬布斯是全球第一個擁有自身整個基因密碼的人;美國Target百貨公司在完全不和顧客溝通的情況下比少女的父親更早知道女兒懷孕的信息。
這些也僅僅是大數據時代的冰山一角,大數據的作用不僅限于此。無論企業還是政府,都已經意識到將巨量的數據進行計算分析并進行下一步的推測非常有用。
但是,大數據帶來的不僅是各種便利及機會,同樣也會讓我們時刻都暴露在“第三只眼”之下,個人隱私受到了前所未有的威脅。
說到大數據,必須先了解之前的“小數據”時代。鑒于工具及方法的局限,很難做到大規模的數據采集并進行分析,而且成本頗高、時效性差。為解決問題,統計學家們發揮出作用,提出以隨機采樣的方式來替代全數據采集,不過其成功取決于樣本選擇的隨機性,但實際上非常難以實現,一旦采樣過程存在任何偏見,分析結果就會相去甚遠。來到大數據時代,由于有了足夠的數據處理和存儲能力,加上最先進的分析技術,就能做到放棄樣本分析這條捷徑,選擇收集全面而完整的數據,即采取全數據模式“樣本=總體”。
大數據的特點就是“大”,而且隨著時間的推移,數據的容量將會越來越大。2012年一年,我們創造了2.8澤字節(澤)的數據。1個澤字節為1,000,000,000,000,000,000千字節。專家預測說,到2020年,每年新創的數據容量將會達到40澤字節。如果要用DVD光盤儲存一天在互聯網里傳送的數據的話,大約需要2.5億張光盤——這個數量每兩年就會翻番。#p#
熱
大數據創造大價值
現在,企業、政府機構和科學家們都開始分析手頭的數據資源。儲存空間對于現代人來說不是問題,電腦也越來越先進,可以在短時間內分析出一大堆不同數據的內在聯系。
大數據本身對普通人的作用其實不大,但大數據算法和應用程序現在卻幾乎無處不在。例如,通過算法對大數據進行分析,信用卡公司能夠很快地發現用卡異常情況,當信用卡在持卡人從未出現過的地方被刷時,系統會自動向持卡人發出警報;能源公司可以通過天氣數據分析,精確地查找到使用風力渦輪發電機的理想地點;電商也開始通過數據分析優化營銷策略,最常見的就是網頁上的“購買了這件商品的顧客還買了……”
大數據創造價值是基于這樣一個核心邏輯,即當今社會在商業、經濟、政府及相關領域中,決策行為越來越取決于數據和分析,而不再是經驗和直覺。大數據技術可以為決策提供一定的“預見參考”,而成功的分析和預見往往能帶來商業和經濟價值。
谷歌和臉譜網站目前的商業模式就是建立在搜集、分析和營銷其客戶制造出來的各類數據之上的,通過向用戶推送為其量身定做的廣告來實現。對于臉譜公司的投資者來說,“臉譜”掌握著超過10億個人的資料數據,其商業價值至少達到1000萬美元。從超市到汽車公司,從航空公司到銀行和保險公司,將手頭的巨量數據轉化成盈利的前景讓各行各業都開始心動。德國最大的IT產業協會BITKOM發表數據稱,2012年全球與大數據應用相關的銷售額達到了46億歐元,到2016年這個數字會上升到160億歐元。
說到商業應用,大數據技術創造價值的能力已經在英國嶄露頭角。一份行業報告顯示,英國政府通過高效使用公共大數據技術每年可節省約330億英鎊,相當于英國每人每年節省約500英鎊。
一些政府機構也開始利用大數據來改進工作。在瑞典首都斯德哥爾摩,有關部門使用數據算法管理交通后,駕車通過該市中心城區的時間縮短了一半,尾氣排放也下降了10%。
雖然經濟不景氣,財政被迫收緊,但大數據依然是英國政府舍得為之一擲千金的“寵兒”。今年年初,英國商業、創新和技能部宣布,將注資6億英鎊(1英鎊約合1.52美元)發展8類高新技術,大數據獨攬其中的1.89億英鎊。
在醫藥和科學界,與大數據有關的應用也相繼試水。#p#
憂
生活在“第三只眼”下
大數據帶來的不僅是各種便利及機會,同樣也會讓我們時刻都暴露在“第三只眼”之下。
生活處處被窺視
亞馬遜網站監視我們的購物習慣,谷歌監視著我們的網頁瀏覽習慣,而微博竊取著我們的社交關系網。在各種機構搜集數據的同時,普通人的各種私人信息也會成為被收集的數據。在哪里使用了購物卡、租用汽車等等,這些信息都會被收集起來。
這些私人信息被收集起來后會供給誰使用?會繼續保持匿名,還是在使用后被刪除?曾經有公司宣布要通過“臉譜”、推特和其他社交網站收集的信息分析個人的貸款信譽,結果引發了民眾的抗議,這個計劃最終被取消。
在荷蘭,許多使用“TomTom”牌導航儀的司機發現,生產商將導航儀記錄下來的數據信息打包賣給了荷蘭政府,警察根據數據顯示的司機駕駛習慣,在那些最可能“創收”的地方設置了限速“陷阱”,不少司機都因此“中招”。此事被曝光后,TomTom公司的CEO公開道歉。
可能遭遇數據“轟炸”
當大數據應用軟件細化和明確到每個人的數據時,企業就可以針對每個人的喜好來進行非常具體的營銷。例如,如果某人在社交網站上表示自己喜歡某個品牌某個款式的牛仔褲,那么百貨商店就可以在此人下一次進入該品牌專柜時向他的手機發送該款式的優惠券。也許零售商和部分消費者會喜歡這種促銷模式,但是其中涉及的隱私泄露也是非常可怕的。
迄今為止,許多公司都會標明收集的信息是“匿名”的,但信息越多,被對號入座的可能性就越大。已經有研究顯示,這些收集到的移動樣本是如此的不同,以致它們可以被用來“獨特地標識出95%的個體”。
美國普林斯頓大學的計算機科學家納拉亞南表示,只需要33比特(二進位制信息單位)的信息,就足以辨識出一個人的身份。
在大數據的采集和分析中,還會存在著各種偏差,哈佛商業評論博客作者凱特·克勞福德最近發表的一篇博文闡述了大數據的隱形偏差。他表示,數據和數據集本身并不是客觀的,而是由人們設計的,是人們用數據來說話,從數據進行推斷以及解釋數據。因此在數據采集和數據分析階段,都不可避免地存在偏差。