謝恩偉:如何實現大數據的應用性
原創2013年4月26日-27日,由51CTO傳媒集團旗下WOT(World Of Tech)品牌主辦的2013大數據全球技術峰會在北京富力萬麗酒店召開。本次峰會將圍繞大數據基礎架構與上層應用的生態系統,解決大規模數據引發的問題,探索大數據基礎的解決方案,激發數據挖掘帶來的競爭力,讓數據發出聲音。51CTO作為本次峰會的主辦方,將全程視頻、圖文直播報道這場數據的盛宴,更多內容請點擊專題:2013大數據全球技術峰會。
微軟大中華區副總裁兼市場戰略部總經理謝恩偉在演講前,與現場觀眾分享了他在兩個禮拜之前參加的上海F1賽車比賽。F1方程式賽車上有超過一百多個觸感器來檢測地面的溫度、輪胎的壓力等等。在上海車展上空有一顆環繞衛星會把整體天氣預報情況、風向、空氣中的溫度以及地面溫差記錄下來,通過上海的賽車場以及在英國的總部實時的傳遞到賽車手手中,從而使得車手在駕駛每小時300公里的情況之下,通過這些數據的分析改變引擎壓力、輪胎的壓力,決定什么時候把賽車開到服務站去重新換輪胎等等。
有時人們以為大數據就是海量的數據,但其實大數據更重要的一個特征,是對數據精確程度的要求,把實時數據精確的聚合起來,通過分析工具,從而引導商業決策。
微軟在大數據領域的看法和體會是什么?
1.所有數據都需要管理。
2.把全球更多的數據源帶給廣大的應用軟件開發者。
3.通過數據搜集做視覺緩沖分析。微軟所做的一系列支持可以幫助廣大的用戶使用現有工具去挖掘大數據的潛力。
以下是全文速記:
各位來賓,上午好!我一直在后面聆聽,我想大家都聽得非常用功,特別感謝51CTO有這樣的一個非常好的機會,能夠把業界的很多資深專家、行業專家聚集在一起,能夠跟廣大的技術人員、IT精英們做更好的交流,特別是在大數據這樣一個話題之下。
在我講PPT之前,我也跟大家稍微分享一個故事。我兩個禮拜之前在上海參加了F1賽車比賽,很榮幸能夠跟賽車手在一起交流。如果大家看大數據的話,其實在整個F1賽車中表現得淋漓盡致。我不知道大家了了解,在F1方程式賽車上起碼有超過一百多個觸感器來檢測地面的溫度、輪胎的壓力等等。同時在上海車展上面有一顆衛星在環繞,把整體天氣預報情況、把風向、把空氣中的溫度以及地面溫差,直接把這些數據記錄下來,這個數據在上海的賽車場以及在英國的總部做非常實時的傳遞到賽車手那里,我以前沒有體會到賽車手的工作那么辛苦。我們可以思考一下,在你駕駛每小時300公里的情況之下,去聆聽這些數據的分析,改變我的引擎壓力、輪胎的壓力,我要決定什么時候把賽車開到服務站去重新換輪胎,這是大數據幾個非常重要的特征。有的時候大家誤解,以為大數據就是海量的數據,當然,數據量只是其中的一個部分。不過我想大數據更重要的一個特征,實際上是對數據精確程度的要求,以前有的時候我感覺我是通過一些模擬能夠把一些信息或者分析傳遞出來,大數據一個非常非常重要的一點,就是怎樣能夠把實時的數據非常精確的數據使用起來,能夠用可視化,通過一些強大的分析工具,能夠把這樣的內容帶到商業決策過程中去。
今天借這個舞臺跟大家稍微談一下微軟在大數據領域的看法和體會。首先是針對用戶來說,未來的四大趨勢,用戶變得越來越移動化,這個移動化不僅代表了每個用戶身上所帶的移動終端,也代表了整個行業,我們針對的客戶群體也越來越具有移動性。除此以外就是社交,在傳統IT行業中大家更多的談到我的數據中心怎樣做整合,我的商業應用怎樣能夠在新環境做起來,去年7月份給我一個非常大的體驗,其中一個體驗,就是整個社交變得越來越突出,除了這個之外,大家已經非常熟悉云計算這樣一個概念。當然,所有的移動化、社交能力以及云計算帶給我們的是龐大的數據量,給我們提供非常非常好的一些商業機遇,通過這些非常精準的數據得到有價值的商業分析,能夠通過很好的一些視覺化的工具,把這些價值充分的體現出來。
那么到底會對IT產生怎樣的沖擊?在這個過程中,我們會看到一系列的轉變,從虛機、存儲、網絡管理等方面,這些因素實際起到了一個推進的作用,也起到了一個被推進的角色,在這個過程當中,剛才談到的四大趨勢,對IT來說非常重要的,也引進了一系列新的場景,比如說社交化,現在我們越來越多看到新類型的商業應用,或者B2C的應用、B2C的應用,把社交這樣的概念完整地整合在這些應用當中去。從一個大數據角度,的的確確我們也看到數據的一些復雜性,這個對于IT來說,實際上是一個蠻頭痛的事,以前是比較適合管理,比如說架構類型的數據現在要考慮到Hadoop等等,到底我們在這樣一個場景當中,怎樣去管理、怎樣能夠真正挖掘數據的價值。
在移動化這個層面上,現在大家也可能聽到過我以前在演講過程中也一直在談論這樣一個趨勢,叫做IT的消費者化。IT的消費者化的一個概念,就是說從一個IT人這個角度在看很多消費類型的設備應用融入到我公司內部的架構過程當中,實際上是蠻復雜的,我怎樣通過一系列的系統管理能力,通過一系列現在已有的IT消費者的數據更好的跟我企業的掛上鉤,這對IT管理者來說又是一個非常大的挑戰。
當然,最后一個就是云計算的概念中,雖然給我們更多的機遇,能夠讓更廣泛的數據集為我所用,能夠讓我的應用造成更多可能性發展的一些趨勢。在這樣一個環境當中,微軟實際上已經在做,那就是身體力行,剛才英特爾的吳總也談過,在大數據這個領域當中,微軟也做了一些事。
去年9月份在北京,做了我們Windows Server 2012的發布,這個操作系統不光能夠幫助終端客戶按照他自己業務的需求去籌建它的私有云架構,比如說通過Windows Server、通過一些系統管理軟件能夠提升業務軟件的可能性。除了這個之外,微軟也推出了Windows Azure,比如說我們的9月份的時候,跟中國電信天翼平臺進行合作,他們把門戶網站的服務、災備服務都建立在Windows Server上,這樣一個非常整合的云的操作系統,對于客戶來說,實際上帶來了相當大的價值,能夠把你所有的應用、所有的運維場景在線上和線下更好地管理起來。總體來說,云的管理系統能夠幫助IT人員解決一系列操作場景。
剛剛談了用戶的場景以及對IT的挑戰,微軟在這個場景當中,怎樣通過云的操作系統為廣大的IT工作者帶來便利。因為今天的話題更多跟大數據有關,下面跟大家稍微簡單介紹一下微軟怎么看大數據,我想談三個方面。
一個方面,作為一個廠商來說,非常重要的是能夠提供一系列技術,幫助我們的客戶解決他的實際問題。我現場做一個抽樣調查,在座的有多少是從純互聯網公司過來的?不多,很少。實際上絕大多數在座的都是從比較傳統的行業過來的,然后在看這個大數據到底對我有什么樣的影響力。在這個方面,微軟非常關注,從一個數據的角度,實際上是沒有主次,或者沒有一個等級的,從公司這個角度來看數據管理的話,對公司來說是同樣重要的,不光是公有云的數據、私有云的數據、混合云的數據。從微軟這個角度出發,怎樣能夠用最現代化的一個管理軟件,或者一種數據庫的系統,能夠幫助廣大的IT者能夠在不同的運維場景當中,把數據統一地管理起來,統一地使用起來,這是第一個,這是微軟對于整個數據管理的判斷。
第二類,就是微軟在整個云計算領域當中,非常推崇以應用為核心,因為有的時候大家感覺云計算就是數據中心,我建了一個數據中心,我就是云計算。有的時候也感覺非常彷徨,這個云計算跟互聯網到底有什么差別?微軟的定義非常簡單,非常重要的是去建立一大批在線的應用,能夠把互聯網的一些資源充分地調動起來。在這個基礎之上,就需要龐大的一些數據集,剛才英特爾的吳總也談到了這樣一個概念,就是怎樣把市場上開放的、有償的數據能夠通過Azure這個平臺更好的交給廣大的應用開發者。中間這塊我們已經收集了非常龐大的數據集,不一定是微軟自己的,更多的可能是像交通或金融等等,這些數據對于應用開發者來說,實際上是起到非常重要的作用,那就是怎樣能夠在新的數據環境當中挖掘最新類型的應用。
第三個方面,微軟也是非常關注,光有這樣存儲的能力,或者數據管理的能力,對我們來說只是一個起步,對于大數據最核心的還是它的分析能力,還是它的一些視覺化的能力。再更重要一點,就是說微軟非常關注怎樣讓你現在已有的IT業務能夠在新的場景中充分得到應用。
下面一個是對不同的使用者、不同數據的整合和支持。這一張對我來說更重要一些,因為剛剛我提到過公司的一個點是放在怎樣通過一系列的手段,能夠幫助我們現在已有技術的云馬上上手。從公司這個角度,就非常期待怎樣能夠在已有的技術基礎之上,幫助廣大的IT開發者在這方面得到更多的推進。
還有第三個方面,實際上也是非常重要的,在大數據環境當中,因為有時候我感覺微軟被誤解了很多,感覺微軟是一個比較封閉的操作環境。實際上我們在整個云的拓展當中,做了一系列跟云開元環境的接觸,我做了很長時間的測算,HPC里面已經有蠻多的模塊跟開元的環境有非常深刻的接觸。在大數據時代,微軟有專門的Hadoop在Windows Azure這個場景當中,我們有非常多的第三方針對Hadoop的應用工具,能夠在這個平臺上做到更好的分析、更好的視覺化的工作。
總體而言,微軟對于大數據的戰略就是所有的數據我們都要統一的做管理,我們需要把行業當中或者全球范圍當中非常有價值的數據帶給我們廣大的應用開發者。我們會非常側重在大數據的分析、在大數據的視覺方面,用最簡單的手段、用最普及的一些應用,給廣大的IT帶來更好的使用。下面的時間也有很多微軟現有的產品,跟大家做一個分享。
其中有一個產品,我會稍微多講一些,那就是PDW,在數據分析上我們看到了一些挑戰,就是需要對Hadoop、對Map Reduce等數據語言和數據能力做很多新的學習,我不知道在座的各位大家對Map Reduce到底熟悉了多少,聽了百度林總演講的話,應該有更多更新的認識。對我來說,要花很多的精力,特別是廣大傳統企業當中不一定會有這樣的技術人員。第二種方式,是把像在Hadoop里面的這些數據做一系列的分析。這兩種方式都不是最優化的方式。
微軟在整個PDW中引入了一個概念,叫PolyBase,它實際上起到Hadoop和傳統數據庫的橋梁作用。在這些基礎之上,我們又在Excel這樣龐大的工具里面也做了一系列工作,比如說通過一系列產品的組建,在Excel這樣一個組件當中,能夠讓你非常直接、非常簡單的去挖掘一些大數據,通過Excel里面非常強大的數據化的概念,把這些數據非常生動的淋漓盡致的展示在不同類型的消費者面前。
這個過程當中,微軟也做了相當多的直接實踐,有的時候說光說不練也沒用,在這個方面我們也做了很多的實踐。跟KLOUT,這是一家多媒體公司,我們做了很多的工作,因為是在觀察全球15個搜索引擎,分析在這個上面每天放的一系列評論,給它面對的客戶群體做定量的分析和報告。在這個基礎上,它遇到了我剛剛談的一系列問題,就是說真正用Map Reduce很難,不容易學。然后它還是有一些問題,就是它的數據是多樣化的,不光是一個非架構數據,怎么通過同樣的分析數據,能夠在多樣的環境當中把分析帶到一個高度,在這個過程中,微軟跟KLOUT有了非常好的合作,跟他們的研發團隊做了一系列的工作,對它所搜集的數據做了非常好的支持。
稍微總結一下,微軟對大數據的看法有三大類,所有數據都需要管理,在管理的過程中,我怎樣讓IT的開發者用同樣的手段去管理數據。另外,我需要把全球更多的數據源帶給廣大的應用軟件開發者。第三方面,就是通過很好的數據搜集,做視覺緩沖分析,在這個過程中,微軟做一系列的支持,幫助廣大的用戶用現在已有的工具去挖掘大數據的一些潛力。
我非常希望、也非常期待在座的各位能夠通過今天的一些介紹,更好地對大數據的一些重要性和實用性有更細的理解,也非常希望有很多合作的機會,跟大家一起探討,能夠把大數據真正用起來、真正實踐起來。謝謝大家!
結尾:以上是51CTO.com記者從一線為您帶來的精彩報道。后續我們還有更加精彩的獨家報道,敬請關注。