Intel吳甘沙:大數據發展脈絡
原創2013年4月26日-27日,由51CTO傳媒集團旗下WOT(World Of Tech)品牌主辦的2013大數據全球技術峰會在北京富力萬麗酒店召開。本次峰會將圍繞大數據基礎架構與上層應用的生態系統,解決大規模數據引發的問題,探索大數據基礎的解決方案,激發數據挖掘帶來的競爭力,讓數據發出聲音。51CTO作為本次峰會的主辦方,將全程視頻、圖文直播報道這場數據的盛宴,更多內容請點擊專題:2013大數據全球技術峰會。
26日上午,英特爾中國研究院首席工程師吳甘沙先生發表了主題為“大數據發展脈絡:見自己,見天地,見眾生”的演講。演講中,吳甘沙指出,大科技革命的下一波高潮已經呼之欲出,大數據模式可以分成三類,第一類見自己,正如蘇格拉底說的你要認識自己。第二個層面是見天地,你要關注你自己,來到天地之間、社會之中,去了解群體和社會的行為。第三個是見眾生,所謂眾生就是天地、自然、萬物,所謂一切眾生皆有佛性,這就是天地、自然、萬物的規律。
英特爾中國研究院首席工程師吳甘沙
他在演講中提出了DRAGON時代的軟件定義城市,DRAGON分別表示,Data driven、Resilient、Automated、Gamified、Open、Networked,而通往DRAGON時代的必然經過新的大數據思維方式和方法學,新的大數據生態系統和服務模式和新的大數據采集、存儲、管理、計算、安全技術。其中,大數據的新思維包括,數據隨時間迅速折舊,個體數據的精確性不再重要,改變“數據是稀缺資源”的世界觀等。
此外,他還提出,未來的智慧城市公共數據和服務平臺應該包含三層,底層城市操作系統、中層數據交易市場和頂層城市應用商店,由此需要相關的技術才可達成。
如下為演講全文:
吳甘沙:大家早上好!身在這個舞臺感到非常榮幸,我今天的標題是“大數據發展脈絡——見自己、見天地、見眾生”。這三個境界,我相信很多人能夠同意這是一代宗師里面最令人振聾發聵的一句話,組委會讓我講一講大數據對于我們的生活、工作以及我們思維的改變,所以我就把這個形而上的標題放上去。我知道我給自己挖了一個大坑,待會是否能填上,是否有標題黨的嫌疑,請大家原諒。
說一下我自己,我在英特爾十幾年,早四五年主要是做虛擬機、編譯器以及移動架構,中間四五年是做多核、重核的架構,以及并行計算,這幾年轉到分布式系統,像物聯網、大數據等等。大家可以看到,從手機到多核、重核再到分布式系統,每一個階段我們都可以看到一個相對比較長時期的大趨勢,我們把這個趨勢作為一種信仰,在這個上面念念不忘做了四五年才能產生回想。我非常同意大家說的,大數據是一個非常激動人心的機會,我們也把這個作為我們最重要的信仰。為什么這么說呢?我想給大家看一下科技革命的宏觀規律,在人類歷史上出現三次科技革命,第一次持續了50年,實現了機械化。第二次持續了整整一個世紀,以電氣化作為標志。第三次是人類歷史上影響最為深遠的一次革命,信息化的出現以及信息化跟其他行業的這樣一種相互影響。
前蘇聯的康德拉季耶夫發現了三次長波理論,雖然這位老兄在第三次的時候在蘇聯被革命掉了,但是他的第四次長波還是能夠很好的和我 們的第三次科技革命吻合。所以有理由相信,如果2008年是第四次長波的結束的話,現在我們處在第五次長波的開始階段,很有理由相信我們 現在面臨著第3.5次或者第四次的這樣一種科技革命。下一波高潮呼之欲出。
再看一下信息革命的小周期,我們認為信息技術革命經歷了三個周期,第一個周期是架化,以IBM的360主機為代表的架構化,我們產生了 兼容的指令及操作系統、高級語言編譯機,第二個周期是數字化,第三次是網絡化,使得我們的信息對每個人唾手可得。現在我們很有理由信 心,現在正在發生一些新的東西,第四次我們認為就是這幾個關鍵詞,移動互聯網、物聯網、云計算和大數據會是第四次科技革命的主要方式 。我們相信這四個技術并不是相互割裂的,待會我會說明這四個技術是相關的。
說到大數據,究竟是一個什么東西,剛才跟IBM的王總也在談,我想它肯定不是數據庫,數據庫是它的一部分,但是它更是一種思維方式, 更是一種戰略,要跟業務層面、跟應用結合起來的一個東西。我把大數據模式分成三類,第一類見自己,正如蘇格拉底說的你要認識自己。第 二個層面是見天地,你要關注你自己,來到天地之間、社會之中,去了解群體和社會的行為。第三個是見眾生,所謂眾生就是天地、自然、萬 物,所謂一切眾生皆有佛性,這就是天地、自然、萬物的規律。分別看一下這三個方面,第一個見自己,基督教有句話叫凡走過必留下足跡, 我們經常在互聯網上留下足跡,比如說北大做了微博的可視化、清華做了微博的關鍵詞,Prismatic做了微八卦,Coursera根據你的興趣行為幫 助你做在線學習,Klout是一個社交影響力平臺,能夠算出你的社交影響力,比如說你的積分超過四五十分,你到機場可以免費享用VIP。所以 這是第一方面。第二個方面是我們每個人心智健康的狀況。第三就是你的消費行為,FICO是美國消費信用評估公司,它公開聲稱我了解你明天要買什么東西,包括我們的精準營銷,所謂納米的定位。
基于這些新思維,我們要有新的方法學,當然這些方法學并不是我獨創的,很多方法學最早在理論終結短文中已經出現了,最近又被更深入的闡述了出來。第一個就是采樣數據到全集數據,第一層面,我們要把數據采集作為一種全面的習慣,第二層面,我們數據采集時要避開主觀性。老外寫了一本書,說原數據本身是矛盾修辭,這里面帶有采集人的主觀思維,所以我們要盡量避免,怎么避免?我們要通過工具,不是通過人,去插入這個采集點,把它放入基礎設施。第三層概念,因為你數據采集下來,必須要解決存儲的問題。
第二個就是多數據源的整合問題,我們有很多數據源,怎么通過數據融合的算法把它整合起來,怎么從非結構化的數據當中抽取語義出來。如果這些數據源是分布在各個區域的,這個分布式中心系統跟我們的分布式中心系統還不一樣,我怎么樣能夠在跨數據中心的情況下實現多數據源的整合。
第三個,就是大數據加上簡單算法,它比小數據加上復雜算法更有意義。這個事實上在很多方面都獲得了證實,比如說機器翻譯,我們的搜索到現在非常流行的深度學習,都發現你的數據集大的話,你的算法可以簡單,但是你的結果可以更好。你的算法如果能夠跟上下文、知識的積累結合起來,這個結果就更好。比如說Google最早的搜索是基于統計學的,但是它加入了知識圖譜的功能以外,搜索出來的結果就會更好。
還有一個就是因果關系跟相關關系的關系,現在這個已經出現在很多地方,大家都說我們要相關性,不管因果性,并不是說我們不需要最終追究這個因果關系,但是我們傳統的科學態度是什么?看到了一個相關性,我會想要了解為什么,我想給出一個假設,建立一個模型,然后去驗證這個模型,這里面帶入了相當多的主觀因素。還不如在這個時間段,我盡量去發現相關性,先不去考慮因果,先發現相關性,然后再研究因果。美國有一個人發明了鳥槍基因測序法,他并不是看到一個新的物種然后去測,他是直接對海水去測取,直接對紐約市的空氣進行測取,他能夠在其中發現幾百萬種新的基因片段,然后基于新的片段,再跟現存的生物做比對,再取這種相關性。我就想到前一段時間的禽流感,我們在菜市場對空氣進行測取就可以了,何必進行采樣呢?所以這個思維方式非常重要。
還有一個就是描述性的分析,我們原來的報表、原來的分析都是描述性的分析,它是什么呢?我要了解過去發生了什么,為什么發生。最好的情況下,是能夠了解現在正在發生什么。但是未來是預測性的,我要了解未來會發生什么,甚至是處方性的分析,我想要未來發生什么,我要做什么樣的事情,能夠讓未來這件事情發生。
還有一個就是實時性,一定比絕對的精確性更重要。大家知道,購物籃分析是基于歷史的數據做出相對精確的分析,但是問題是當你在一個超市購物的時候,你去發現用戶這個最好的點,是他還在瀏覽、找東西的時候,而不是最后結賬的時候,所以實時性非常重要。這是一大類的思維和方法學。
大家可以看到,在我們的實際應用當中,比如說現代交通就需要多數據源,有些數據來自于北京的監控和指揮中心,有些是二級以上城市的數據。我們每天攝像頭產生的視頻和圖象數據以及原數據要幾百個GB,其他的數據,大家可以看到結構化的數據,手機位置信息,1800萬條。出租車GPS信息兩千萬條每天,交通卡刷卡信息1900萬條每天,還有高速收費的數據,還有靜態的數據,居民調查的數據,甚至是看起來跟交流沒有關系的這些領域,事實上也能夠產生相關性,比如說我們的供水系統,我們的供水系統能夠知道早上晨起的高峰時間,同樣智能系統能夠知道每天晚上辦公室關燈的高峰時間,根據這個時間它能推算晚上堵車時間。包括我們的睡眠質量跟我們交通的狀況有關系,我們對社交網絡進行情感分析,跟我們的交通事實上也有關系。這種多數據源的集成,才能達到最大化的價值。
大價值也能帶來新思維,首先數據是個原材料,如果說我們現在處在新一輪的工業革命,第三次工業革命早期的話,工業革命的原材料就是我們的數據,所以它有原生價值。同時,如果說數據是個原油儲備的話,從數據里提取出來的信息是原油,所以它又有提煉的衍生價值。數據又是資產,我們原來說我們的企業IT部門純粹只花錢不賺錢,但是如果數據成為資產了,它就可以成為一個利潤中心,這個數據有初次利用價值,也有反復利用價值。比如說物流公司有個人信息數據,有托運方的數據,以及很多客戶的數據。一開始的想法肯定是把這些數據很好地利用起來,使它的運營更為有效。但是再想一想,它事實上可以反復利用這些價值,比如說托運方信用數據,使得他能夠對托運方進行貸款服務,甚至拿托運方正在路上的貨物進行抵押貸款,他能夠了解每一個細分領域的經濟運行情況,又能夠變成一個金融信息公司,所以數據是能夠反復利用的。最后一個數據是貨幣,既然是貨幣就能夠交易。
基于這樣的新思維產生的新的方法學是什么呢?它可能是一種數據的資產產品和社會化分析服務,為了達到這些,我們首先要考慮數據的民主化,怎樣實現數據的民主化,讓每一個人接觸到數據?事實上我們的政府應該走出第一步開放我們的數據,從美國來說,紐約和芝加哥都有開元數據等等,所有這些都代表政府應該在前面領路。除了政府免費開放這種數據,其他的還應該有有償數據,通過數據的市場和定價,你這個數據是根據量定價還是根據你的數據類型定價。還有,我們并不是每一個擁有數據的人都有分析的能力,所以你要社會化分析的服務,讓別人幫你分析,在保障數據擁有權和其他權利的前提下,讓其他人幫助你分析,事實上在美國有這樣的公司實現這個東西。
所有這些帶來了新的數據大生態的系統,第一個是數據擁有者,第二種是數據中介,第三種是數據的技術公司。現在很多傳統行業的客戶他可能就是數據的擁有者,但是現在也有很多新的,比如說微軟有提供數據的產品和服務,同時能夠交換數據,所以它又承擔了數據中介的服務。而像阿里巴巴可能是承擔了三個角色。
在智慧城市里面,怎么去安排這樣一種生態系統?我們認為未來的智慧城市,它會出現一種公共數據和服務平臺,平臺的最下面是城市的操作系統。大家知道,操作系統是用來管理資源、調度資源,在我們的城市里面,你也有很多分布式的存儲、互聯和計算的資源,還有很多分布式的傳感器的資源。操作系統同時又有很多的高層的抽象,我們有文件、有進程、線程、信號燈,在城市生活當中也有路燈、有路、有各種各樣的電網,所以這些高層的抽象都可以由城市的操作系統建立起來。第二層就是數據的交易市場,你要有這么一個數據的集市,讓大家把數據放上去交易產生價值。剛才說過紐約、芝加哥、都柏林等各種各樣的數據市場。第三層就是城市的應用商店,有各種各樣的應用,這些應用都能把你個人、把你的環境、服務數據連接在一起。這三層架構你需要掌握新的技術,比如說在IaaS、PaaS這一層,你需要具有多范式,在DaaS層面,你需要有數據定價的功能和權利的保障,在SaaS方面,你要把城市、政府和個人生活連接起來。這是傳統大數據的技術站,最下面的是計算互聯存儲,現在這塊事實上也有很多新的發展,我們的計算從單節點變成機架的計算,我們的標準服務器變成定制化的服務器,有硬件加速器、軟硬件協同設計等等。數據處理的信息和結果能夠以用戶消費的結果顯示出來,同時有數據權利的問題,數據權利是一個比較新的概念。
我們先說在這個站上面需要做的一些新的考量,我們認為大數據一個系統一定是針對特定的應用做出一個特定的最優大數據系統,而這個大數據系統要考慮三個因素,一個是大體量、一個是精確性、一個是實時性。我們現在認為在很多情況下你只能滿足兩個,不能三角全部滿足,這只是我們現在的觀察。比如說批量計算,能夠滿足大體量和精確性,但是不能滿足實時性。復雜數據處理,能夠滿足實時性,但是處理的數據只能在一個窗口里,相對比較小,同時它是一個實時的inside。即時查詢,還能夠對數據進行采樣,實現秒的查詢結果。增量計算相對比較好的平衡了這三方面,所謂增量計算就是歷史數據放在一邊,新數據不斷加進來,產生新的價值。當然,增量計算必須跟內存計算結合起來,有內存計算才能實現更好的短延遲的計算。小數據個人的計算是在這一頭,它能夠完成精確性,而我們的城市計算是在另外一頭,它是一個大體量。所以你要有一個設計權衡。
基于這個設計權衡,我們也做了一個完整的站,這個站里面,當然有Hadoop,如果你拷貝三份的話,非常浪費資源。SQL和即席查詢,包括圖計算,在這上面實現大規模的數據分析以及數據的可視化,再下面是基于IA的平臺、基架。就英特爾研究院就參與了很多工作,比如說英特爾現在已經有Hadoop。
再說一下現在誰擁有數據、誰能用數據、誰在用數據、管理邊界在哪里?Google的道路狀況數據庫沒有開放出來,我們的社交媒體數據庫到底是屬于發帖人還是社交網絡,這也不太清楚。比如說我們的行車記錄儀是屬于保險公司還是車、還是個人的,你的醫療記錄電子病歷到底屬于醫院還是你個人的?實際上這些權利都不是特別清楚,所以我們現在強調數據有三種權利,第一種是擁有權,第二種隱私權利,第三種是使用知情權。
第一種,我們要保障他的擁有權,我們要有法律和技術進行保障。其次就是我們的隱私權,大家知道,隱私和服務是一種辯證法,關鍵是我們對這個隱私數據的使用要有控制,這種控制需要使用的知情權,這個使用的知情權就是說數據的擁有者對于這個數據的使用是可計的,數據轉換當中,它的血統是否丟失了,產生多少價值。而且尤其像GPL一樣,我做了開源軟件的1.0,別人做了2.0,他賣了錢以后,我是否可以分一部分利潤。
最后總結一下,通過DRAGON時代的必經之路,我們需要了解新的生態系統,參與生態系統,提供新的服務模式。第三個就是在大數據的采集、管理、存儲、分析、數據保障這一塊要有新的東西。
最后用這一張作為一個結語,剛才說的幾個都不是相互割裂的,大數據是根本、是核心,云計算是術,它是方式和手段,移動互聯網、物聯網是物化大數據和云計算的價值。
今天我就講到這里,謝謝大家!
以上是51CTO.com記者從一線為您帶來的精彩報道。后續我們還有更加精彩的獨家報道,敬請關注。