大數據時代帶來更理性、更可靠的決策
英國牛津大學網絡學院互聯網研究所教授、《大數據時代》作者維克托·邁爾-舍恩伯格: 大數據時代帶來更理性、更可靠的決策
◆究竟是什么魔力,讓“大數據”這一概念得到全球各國的普遍關注?到底什么是“大數據”?它能夠在多大程度上改變我們的生活?在我們尋求對這些重要問題的解答時,牛津大學網絡學院互聯網研究所教授維克托·邁爾-舍恩伯格出現在我們的視野中;希望我們對他的采訪,可以幫助讀者們找到這些疑問的答案。
最近一段時間,“大數據”的熱潮席卷全球,正如美國《福布斯》雜志所說的那樣,如今,在瀏覽新聞網站或者參加行業會議時,想看不見或聽不到“大數據”這個詞幾乎不可能。去年,美國6個聯邦政府部門宣布將啟動“大數據研發計劃”,投資超過2億美元以改進從海量和復雜的數據中獲取知識的能力。同時,我國科技部發布的“‘十二五’國家科技計劃信息技術領域2013年度備選項目征集指南”也把大數據研究列在首位。眼下召開的全國“兩會”上,有全國人大代表提出要把發展“大數據”上升為國家戰略。
究竟是什么魔力,讓“大數據”這一概念得到全球各國的普遍關注?到底什么是“大數據”?它能夠在多大程度上改變我們的生活?眼前對“大數據”的關注度是否已經過高了呢?在我們尋求對這些重要問題的解答時,英國牛津大學網絡學院互連網研究所教授維克托·邁爾-舍恩伯格(Viktor Mayer-Schonberger)出現在我們的視野中,討論“大數據”,他如果不是最合適的人選,也起碼是合適人選之一。
20多年來,維克托一直致力于網絡經濟、信息與創新、信息監管、網絡規范與戰略管理的研究。還在“大數據”這一概念眾說紛紜時,維克托就已進行了系統深入的研究,2010年,他在英國《經濟學人》雜志上和數據編輯肯尼思·庫克耶一起,發表了長達14頁的大數據專題文章。稱他為最早洞見大數據時代發展趨勢的數據科學家之一,并不為過。
《經濟學人》說,在大數據領域,維克托是最受人尊敬的全方位發言人之一;美國《科學》雜志說,若要發起一場關于這個問題的深入討論,沒有比他更好的發起者了。
除了理論研究以外,維克托還非常接近實戰世界,早在上大學期間,他就先后成立了兩家數據安全和制作反病毒軟件的公司,而在他寫就的《大數據時代》一書中,那些最前沿、最嶄新的大數據應用案例,都得益于他多年來緊跟企業與商業應用的步伐。他的咨詢客戶中,不乏微軟、惠普、IBM、亞馬遜、臉書、推特、VISA等大數據先鋒們。
目前,維克托還是歐盟互聯網官方政策背后的重要制定者與參與者,尤為重要的是,他還任職過新加坡商務部、文萊國防部、科威特商務部等部門,特別熟悉亞洲信息產業的發展與戰略布局。
希望我們通過電子郵件對維克托的采訪,可以幫助讀者們找到這些疑問的答案。
失去微觀層面上的精確度,為的是獲取宏觀層面上的洞察力
文匯報:今天,“大數據”已經成為全球炙手可熱的詞匯,您是從何時開始關注它的?
邁爾-舍恩伯格:多年來,我一直致力于研究數據在信息經濟的發展中所扮演的重要角色,我與肯尼思·庫克耶(Kenneth Cukier,我的合著者)一起發布了一系列相關研究報告。大約三年前,在我自己組織的一次會議上,我倆都意識到“大數據”的存在已經不僅僅是一種炒作或者什么宏大的宣言了,而將實實在在地改變我們的工作、生活以及整個社會,于是,我們決定就此專題寫一本書。
文匯報:那么在您看來,究竟什么是大數據時代?它和傳統數據時代到底有什么差別?我們知道,像沃爾瑪這樣的公司早在多年前,就已經將大數據運用到了商業實踐中。
邁爾-舍恩伯格:事實上,過去幾個世紀以來,數據已經在科學家們制定決策的過程中扮演了一定的角色,而過去幾十年間,這一做法又延伸到了一些公司的決策制定過程。但在大數據時代之前,數據是非常匱乏的,我們擁有的數據非常少。因此,我們的決策、我們構建的制度都是建立在這樣一種數據匱乏的基礎上。今天,一切變得非常不同,它體現在三個不同的方面,我們稱之為“更多”、“更亂”和“相關性”。
文匯報:這三個特征也是您在《大數據時代》一書中非常強調的,它們甚至會顛覆我們過去的整個思維方式。您能否具體描述一下這到底是怎樣的過程?
邁爾-舍恩伯格:好的。我所說的“更多”,是指圍繞任何一個我們想要調查的特定問題,或者是需要我們回答的疑問,我們都可以比過去任何時候獲取更多的數據。在大數據時代,我們可以利用海量的數據得到非常詳盡的見解,這是傳統方法所不能做到的。
可以這么說,大數據時代和傳統數據時代的區別,就像分辨率在200萬像素的舊數碼照片,一下子提高到2400萬像素那樣。后者是一個非常非常大的文件,它可以提供更多細節。它可以讓我們不斷放大,看清楚小到顆粒狀的細部,而具有較低分辨率的圖像在這些細節方面就會非常模糊。
基因信息就是一個很好的例子。美國有一家叫23andMe的新公司提供個人的DNA測試分析,以發現一些疾病征兆。它的成本只有兩三百美元,并提醒客戶關注會發展成嚴重疾病的個人癖好。但是公司并不對每個客戶的全基因組進行測序,而是針對已知特征的位點(經研究得知因某種疾病存在,而可能會出問題的DNA片段)進行比對。這意味著,當一個新的特征被研究發現時,23andMe公司就不得不再次對客戶的DNA進行測序并建立更完整的檔案。
蘋果公司的史蒂夫·喬布斯嘗試了非常不同的方法。他得了癌癥后,就有了自己全部的基因密碼,數十億的堿基對測序。這花費了他超過10萬美元的成本,但這可以讓醫生完整地洞察他的基因密碼。每當藥物由于喬布斯的癌癥病變而失去有效性,他們就可以根據喬布斯特定的基因信息,尋找到有效的替代藥物。遺憾的是,這也沒有保住喬布斯的命,但是在這一過程中獲得的數據,已經延長了他的生命。
由于技術創新,現在收集大量信息的成本變得越來越低。數年前,史蒂夫·喬布斯花費了六位數的金額才做到的事情,今天,不到1000美元就可以獲得同樣的服務了。
而“更亂”指的是,在小數據時代,因為數據是如此稀少,我們可以確保自己收集的每一個數據點都是非常準確的。相比較而言,大數據往往是凌亂和質量參差不齊的。但是,相比以高額代價來保證測量和收集少量數據的精確性,在大數據時代,我們將接受這種雜亂,因為我們通常需要的只是一個大方向,而不是努力了解一種現象的細枝末節。我們并不是要完全放棄精確性,我們只是放棄對精確性的熱衷。我們失去微觀層面上的精確度,為的是獲取在宏觀層面上的洞察力。
電腦翻譯就是其中一個例子。1990年代,IBM的研究人員使用了一套非常精確的文件(加拿大議會記錄的法語和英語版)來訓練計算機。盡管計算機完全按照規則行事,但基于此的翻譯質量卻非常低。然后,谷歌在2006年開始介入這一領域,他們沒有使用來自加拿大政府的幾百萬句標準翻譯,而是使用隨手可得的任何語言。他們在整個互聯網上,利用數十億頁質量參差不齊的翻譯,這些翻譯不怎么標準——但是,這是一個小的權衡——他們能夠使用的數據大大增加了,結果翻譯質量反而提高了。與更少、更標準的數據相比,更多凌亂的資料完勝了。
“更多”和“更亂”組合到一起,產生了第三個特點,“相關性”,這也是大數據帶給我們的最根本性的轉變。我們的思維將從因果關系轉向相關關系。至今為止的整個人類歷史里,全世界的人們都在尋找事件發生的原因,探尋“為什么”。但我們對原因的執著探索往往帶領我們走向錯誤的方向。所以,我們建議,在大數據時代,在許多情況下,我們可以僅僅尋找“是什么”,而不必完全理解“為什么”。例如,對于大數據的分析中,我們可以發現機器震動中一些非常微小的變化,這些變化表明機器將很快損壞。這使我們能夠在部分機器零件報廢前更換它們,這被稱為“預測性維護”,它可以節省不少錢。但除了提高消費效率,“相關性”還可以做更多的事情。
比如對早產兒而言,即使他們長大成人,這些小寶寶仍舊是非常脆弱的,哪怕是遇上很小的感染。醫生卡羅琳·麥格雷戈研究如何給這些嬰兒最好的生存機會。使用大數據分析,每分鐘可以搜集這些嬰兒超過一千個數據點,麥格雷戈發現一個令人震驚的事實:每當這些早產兒出現非常穩定的標志時,他們的身體其實并不穩定,正在準備發病。有了這方面的知識,她就能在一個非常早期的階段,確定嬰兒是否需要藥物治療,從而挽救更多孩子的生命。
這是典型的大數據應用:醫生麥格雷戈通過更全面的傳感器,可以比以往搜集到更多的數據。她也接受,在這種情況下,并不是所有的數據都是準確的,從而也會導致她分析中存在不精確的可能。她把“為什么”這個問題放在一邊,而用一種更務實的方式來提供幫助,她尋找“是什么”,這才是一個更好的預見感染的辦法。
我們應該記住:大數據也可以挽救生命。
正確使用大數據,可以改善醫療、教育水平,促進人類發展
文匯報:大數據時代的到來,是否將會引領新一輪的產業革命?我們應該怎樣客觀地看待它的價值?
邁爾-舍恩伯格:大數據將會極大地改變社會生活的方方面面,但是它的價值能否等同于工業革命,這個問題目前還不好說。我個人猜想可能不能,原因是在19世紀初工業革命剛剛開始的時候,經濟發展還處于非常低的水平上,所以相對來說,當時的人們從工業化過程中所能獲得的生活水平的提升是非常巨大的,今天則非常不一樣了。
我們真正想強調的是,大數據時代將推動我們從根本上改變企業的運作方式,以及我們在社會中的生活方式。大數據可以提高人類制定決策的能力,這種提高將是大幅度的。有了大數據,我們不是簡單地提高經濟效率,而是將挽救人類生命,延長我們自己的壽命。我們還將改善教育,促進發展。同樣的道理,我們必須要小心。大數據同樣也有“陰暗面”,正如我們在書中討論的那樣。如果應用錯誤,大數據也可能會化為一個強有力的武器。因此,我們必須確保正確使用大數據。
文匯報:您提到了大數據時代的“陰暗面”,它的到來會加深數字化鴻溝嗎?
邁爾-舍恩伯格:大數據是一個強大的工具。因此,如果我們使用了錯誤的方式,它就可能會加深數字鴻溝。但是,如果我們用得好,相信大數據就可能會改善我們的生活,尤其是對那些不那么幸運的人而言。在這一點上,你可以把它想像成火、電或是抗生素等等。
文匯報:也就是說,您對大數據的價值認知,是基于一個更長時段的歷史發展。
邁爾-舍恩伯格:如果以非常廣闊的視角來看人類歷史,我認為,人類一直想要理解世界。起初,許多人的“知識”是基于迷信和預感。知識的發展非常慢,人們需要非常深層次的思考,再通過實踐進行檢驗,以確保知識是可用的。
但即使如此,我們的知識仍舊不是百分之百可靠的。例如,19世紀,路易·巴斯德一直在研究狂犬病疫苗,當時有一個被狗嚴重咬傷而染上狂犬病的小孩,父母擔心孩子會死去,懇求巴斯德試試他的試驗性疫苗。巴斯德照做了,孩子活了下來。隨后的慶祝活動上,巴斯德以一個英雄的身份出現,他挽救了年輕孩子的性命。但是事實的確如此嗎?今天,通過更深入的研究,我們知道,在被類似病狗咬到的兒童中,只有25%會感染狂犬病。所以75%的兒童哪怕使用了無效的疫苗,仍舊可以存活下來。這個故事告訴我們,我們以為自己生活在非常科學的世界中,但其實,我們擁有的數據非常少。一種新的治療方法在被證明安全之前,需要做幾十個甚至幾百個醫學實驗來進行測試。但這仍舊太少,人們還是會受到傷害,因為我們依靠的數據太少。在大數據時代,我們可以告別數據匱乏,做出的決策將更理性,更基于事實,當然也更可靠。這是大數據時代帶給我們的希望——更好的決策將會代替我們過往那些可疑的迷信和不可靠的人類預感。
文匯報:我們看到,麥肯錫公司2011年就發布報告推測,如果把大數據用于美國的醫療保健,一年可產生潛在價值3000億美元,用于歐洲的公共管理可獲得年度潛在價值2500億歐元;服務提供商利用個人位置數據可獲得潛在的消費者年度盈余6000億美元;利用大數據分析,零售商可增加運營利潤60%,制造業設備裝配成本會減少50%。“數據創造價值”的預測已經非常振奮人心。在您看來,大數據是否只是一門價值不菲的生意?
邁爾-舍恩伯格:不,大數據可以做更多。醫療方面,我們前面已經提過,只是分析一些重要的征兆,早產嬰兒的感染出現明顯癥狀的數小時前,醫生就可以預見其生病。
同樣,通過大數據分析,我們也可以找出學校教科書中的哪一部分對學生而言效果最好,也可以找出效果不好的部分。到現在為止,我們只能按照人類的預感,即教師自己判斷學生在理解特定課程時是否會有疑問;但在大數據時代,我們有實際的數據可以參考,例如數據顯示,電子書籍的某些頁面被看過許多遍,因為它讓學生感覺費解,據此可以調整我們的教材。這將從根本上改變教育。
或者舉公共政策為例:Inrix是為智能手機提供導航軟件的公司,它還提供實時的交通數據。之所以能做到這一點,是因為每個用戶本身都成為了交通流量狀況的傳感器,把位置和速度信息都發回Inrix公司。這樣一來,就可以給行進在交通堵塞路段周圍的客戶提供良好服務。Inrix公司有一大堆人們的活動數據,這還將有助于城市規劃者了解大家的通勤模式,人們從哪里出發去工作,然后返回,并建設基礎設施,如道路和鐵路。這是最有效的應用。節省錢的同時,也有利于整個社會的管理。
文匯報:大數據對于商業決策、學術研究乃至國家治理的作用是顯而易見的;但是對日常生活中的普通人而言,他們一定會從中受益嗎?為什么在大數據時代,還是有不少人主張遠離過載的信息和數據、返璞歸真回到傳統的社群生活之中呢?個人生活空間一定得從“簡單平面”轉變到“多維存在”才有意義嗎?
邁爾-舍恩伯格:千百年來,人類已經經歷的世界,都是在少量數據的基礎上產生很多想法的世界。海員們結束長途航行后回來,地圖才會在這一次經驗的基礎上進行重新繪制。這顯然不會很精確。經過試驗和犯錯的周而復始,人類發展得非常緩慢。但是,當我們只有非常少的數據時,這是理所當然的結果。今天,我們有這么多的數據,難怪人類會不堪重負。但是,現在大數據可以提供幫助。如果人類不太善于消化這些過多的信息,大數據分析可以幫助我們將信息進行過濾,并進一步可視化,使我們能夠輕松地加以使用。
人們尚未普遍具備與大數據時代相匹配的思維和技能
文匯報:有專家認為,大數據的未來是數據的APP(加速并行處理)而非基礎構架;也就是說,僅僅有數據平臺和基礎構架是無法創造長期價值的。對此您怎么看?
邁爾-舍恩伯格:我們認為,大數據時代將至少需要和過去時代一樣多的人的獨創性。同時,巨大的資源才是未來時代的金礦,那些擁有這些數據資源的人將獲得的回報是不可想像的。
文匯報:大數據時代,數據都是透明的,我們如何在保護個人隱私、商業機密和國家安全之間取得平衡?您所謂的“互聯網遺忘運動”會是最佳藥方嗎?
邁爾-舍恩伯格:大數據時代所面臨的挑戰是,我們發現了隱藏在數據背后的價值,所以,保留這些數據,然后一遍遍地重復使用數據,往往成為一種明智的選擇。同時,現行的保護個人隱私的法律,特別在西方,針對的是一個傳統數據的世界,而不是一個大數據世界。這就需要我們在保護隱私的規則方面作出調整。我們建議,可以通過調整相關保護規則來實現這一目標,正像你所提到的,我們可以在一定時間以后,選擇遺忘這些數據。
文匯報:大數據時代是一個海量數據有待處理的時代,同時又是一個海量無用信息需要刪除的時代。這是否就是您在《刪除》一書中強調我們要有所取舍的原因所在?
邁爾-舍恩伯格:是。在某種程度上,大數據本身也可以加強隱私的保護。因為如果有一百萬個數據點,一個單獨的數據點就不再那么重要了,這和傳統數據時代非常不一樣。隨著時間的推移,忘記其中一些數據,并不會破壞整個大數據的運行和使用。
文匯報:大數據現在在全球究竟發展到了什么階段?處理大數據的技術是否已經在全世界范圍內普及?
邁爾-舍恩伯格:管理和處理大數據的技術都已經存在了,而且并不是非常昂貴。但是,有一樣東西目前仍舊非常缺乏,那就是我們的思維——以理解數據背后所隱藏的巨大價值,以及提取這種價值的專門技能。今天,全球范圍內,人們還沒有普遍具備這種思維和技能,但是我相信,在未來,這種情況會發生改變。我們預計,世界各地的許多大學將提供針對大數據分析的課程,來培訓大數據時代所需要的技能。
文匯報:歷次產業技術革命,中國似乎都是學習者和模仿者;和上幾輪產業技術革命不同的是,大數據時代,中國幾乎和歐美發達國家同時開始技術研發,中國人口又居世界首位,將會成為產生數據量最多的國家。您看好中國在新時代的發展前景嗎?中國在大數據時代是否有創新和領先的可能?
邁爾-舍恩伯格:是的,我們對此非常樂觀。中國很可能成為大數據這一領域的先驅。在大數據時代,中國有很多優勢:中國人都受過良好的教育,特別是在數學和統計方面(這是非常重要的)。中國是一個巨大的多元化社會,這會創造大量機會來創造大數據這一資源,并建立大數據應用。同樣的道理,對于大數據的蓬勃發展,我們還需要相匹配的思維方式,有嘗試新事物和持續創新的愿望,以實證事實來作為我們決策的依據。因此,和許多其他社會一樣,大數據時代的確也會給中國帶來非常大的變化。
文匯報:我們知道,《大數據時代》一書的中文版是和英文版同時面世的,這又是出于怎樣的考慮?
邁爾-舍恩伯格:事實上,中文版的推出比在美國推出英文版還要早,但兩者都基于相同的內容。這僅僅是因為在書的生產、宣傳以及營銷方面,美國方面需要比中國更長的時間。同時我們認為,中國是非常重要的,我們希望我們的書可以在這里盡快出版。