劉偉:推動大數據帶來的信息技術變革
2012地理信息開發者大會(WGDC2012)今日在北京國家會議中心拉開帷幕,本次大會以“新技術、新模式、新商業”為主題,是地理信息領域最具影響力的技術性盛會,其宗旨是不斷引領和促進地理信息技術的創新與變革。EMC中國卓越研發集團北京研發中心總經理劉偉發表了題為《大數據=大機遇!》的演講,分享了在大數據來臨的時代,我們如何做出更好的應對。
EMC中國卓越研發集團北京研發中心總經理劉偉(3sNews 攝)
以下為文字實錄:
在我們無意識中,這個世界已經變成了一個大數據的世界了。
我們經常討論大數據,究竟什么是大數據?其實大跟小是一個相對的概念。我覺得有兩個原因,一個是我們跟歷史比有一個時間點,在過去,我們討論數據的時候,比如提到Total Data已經是很了不起了,十年前有TB的數據已經是非常大了。時過境遷,今天再談數據我們用的標量單位是Z、T,所以時間緯度上看大數據絕對是數據量太大。還有一個緯度,從某種意義上來講,我們在討論大數據的時候也是人們在對數據處理方面的一種無奈。這個“大”實際上是說,我們處理數據的能力小于數據量。換句話說,數據量太大。所以真正直到有一天,如果我們能夠通過技術的手段,通過一些新的解決方案,能夠隨心所欲駕馭大數據的時候,這個時候數據就變成了一種機會。所以今天我就想討論一下在今后十年整個數字世界會增長44倍,也就是說從2010年的0.9ZB,要增加到十年后的35.2BZ。這個數據變化過程中,其實我們每一個人包括在座的各位都是參與到大數據產業當中。各行各業,不管是企業、個人、政府、還是銀行,所有的行業都在這次大數據的變革當中起著推波助瀾的作用。數據產生的過程中有大數據產生的大戶,比如說搞科技研究的,比如歐洲強離子衛星每秒鐘撞出上億的數據單元。比如社交網絡、地球物理,都是數據產生的大戶。這些數據產生的大戶對大數據產生起到了很大的作用,而更重要的部分是我們個人,包括在座的各位。
隨著互聯網的發展,移動社會的普遍應用,包括Facebook的發展和電子商務、音頻、視頻、圖像廣泛的應用,使得每一個個體都變成了巨大數據的創造者。這樣這個基數就變成了一個天文數字,而新產生的數據很大一部分是結構化數據和非結構化的數據?;氐降乩硇畔⑾到y,地理信息系統是在走入這個大數據行業里面的一個比較前列的行業。隨著技術的發展,在測繪領域,新的技術為我們提供了很多新的測繪方法,包括遙感技術、GPS技術、和測量技術等等,它能幫助我們收集更多數據這是好的方面。另一方面也無形中推動了數據量的大發展。
而多媒體信息和傳統地理信息的結合也從某種意義上來講,讓地理信息的數據量有了一個跨越式的發展。比如說Google地圖,它06年的數據量是70TB,到了2010年已經達到了50萬TB,隨著新的移動互聯網、手機設備和LBS的發展,新的地理信息相關數據衍生出很多新的數據種類和增加了很多數據量。
我們看一下傳統上地理信息系統怎么管理和處理這些數據?傳統的地理信息系統相對處理數據的種類和類型比較單一、比較簡單。主要是矢量數據,就是點、線、面體以及跟矢量數據相關的一些屬性信息??臻g數據是利用文件系統來管理,我們用關系數據庫來關系這種屬性數據。所以文件系統加上關系數據庫的系統就變成了一個很典型的地理信息的數據管理系統。這個系統里有一個很明顯的問題,就是因為數據是在不同的地方管理,所以造成了在計算效率和數據管理,包括保持數據一致性的時候都有一些困難。所以后來有很多空間數據苦來同時管理空間數據和屬性數據。
剛才我也談到了,地理信息發生了很大的變化,不管是從數據量還是數據的種類都跟以前不可同日而語。原來簡單空間數據管理已經不太適用了。我們覺得將來的方式對于矢量數據應該考慮大規模并行的空間數據庫來進行管理。面對這種大的數據量和多種類的數據,對于地理信息來講要解決兩方面的問題。一個是信息存儲問題。因為有這樣的數據量,我們信息存儲的平臺一定要具有這樣的特點,第一容量要大,第二擴展性要好,第三就是要能夠兼容異構的數據,能夠同時的管理結構化和非結構化的數據。數據的管理還有一個很重要的方面就是怎么分析和處理這個數據?這么大的數據,傳統的分析方法有限,所以處理數據的時候有幾個關鍵的地方:
第一,一定是分布式的處理方式,通過這個方式以達到更高的處理效果。第二,一定要想辦法讓我們的分析、讓我們的計算更加的靠近數據。這么高的數據分析系統有沒有?我們說“可以有”。這是EMC的一個存儲系統,這是業界無論是從可靠性還是性能都是最高的。我們看一下它的容量,單一的文件系統可以達到15PB。而這樣大的文件系統里面橫向的可擴展性能夠保證性能即便是這樣的大的數據,IO也可以達到1.5兆。
下面簡單說一下分析,有了數據很好,有了數據可以有很多工作可以做,更重要的是怎么從大量數據中挖掘出來信息。傳統的方法都是做結構化的數據,數據量比較小,是TB量級的那時候是縱向擴展,接下來大數據時代,一方面數據既有結構化的,也有非結構化的。所以我們將來的分析平臺一定是能兼容結構化和非結構化。同時在分析能量上也要分析到PB量的數據。再有一個分析的形態一定是可擴展的,因為數據量不管是大它還是與時俱進的。怎么樣讓數據動態適應數據的增長,一定要讓系統里有一個可擴展的空間和能力。
舉一個例子,EMC分析平臺,它有兩個核心引擎,一個是Greenplum,它是一個大規模的并行數據庫,它有幾個很重要的特點,一個是容量大,可以處理PB級數據,另外一個就是可擴展性,我們叫做無共享體系架構。這個體系架構可以部署在一個很多節點構成的數據量,如果我們處理數據量需要擴大,性能需要提高,可以通過增加節點完成工作。數據加載速度可以達到10/秒,因為它是把所有的查詢分布到不同的節點進行。這個系統所有的負載均衡都是由系統自動完成的。
還有一點GPDB是支持地理空間數據的數據庫。它通過支持PostGIS可以支持空間計算。剛才我們強調了大數據一定要有大數據的分析頭腦,GPDB有內置的分析強大功能,通過SQL的一些調用,可以調到很多分析的函數,包括像SVM這些都是在系統里有支持的。
再有一點就是支持全文搜索。這種全文搜索集成了Soir,它可以實現自由文本的全文檢索。同時并行的體系架構,在全文搜索中是完全被簡化的,搜索的效率非常高。剛才講的這些都是結構化的數據里面用什么樣的方式進行分析。對于非結構化的數據,大數據處理現在最好的方式就是Greenplum HD。它在標準的基礎上做了很多改進,特別是性能和可靠性上的改進。比如說增加了數字節點內容,可以增加反應速度和避免一些單節點的問題造成系統的問題。同時增加了一些競像的配套反應,這些都是根據系統可靠性采用的一些方式。
總的來說Greenplum這個平臺是一個大數據完整的分析解決方案,涵蓋了所有的數據,不管是結構化數據還是非結構化數據,加上分布式結構體系架構,可以在分析大數據過程中實現高容量高效率。
剛才前面幾位嘉賓都講了地理信息行業在經歷一個很大的轉變,這個轉變其中有一個方面就是我們要面對的數據是大數據,這對我們所有人來說是一個機會。在以數據為中心的時代,數據非常重要,擁有分析數據、駕馭數據的能力更重要。大數據管理這方面是EMC公司非常有興趣的,也是我們的專業行項,所以我們非常希望有機會跟在座開發者一起合作,共同推動這次由大數據帶來的信息技術的這場變革。
時間的關系我就先講這么多,如果有沒講清楚的大家下來可以再討論,如果對我剛才提到的一些產品有興趣,我們門口有展臺,那邊有專業技術人員可以給大家進行詳細的演示。
謝謝大家的時間,也預祝這次地理信息開發者大會圓滿成功,謝謝!