解讀微軟大數據
原創作者:馬沛
“微軟針對關系型數據、非關系型數據和數據流的管理,第一步是打造一個平臺,在這個平臺下,各種類型的數據都可以進來集中整合。第二步是提供一個工具,讓所有的數據可以進行清理和分析。”
【51CTO獨家報道】“安裝在Windows server和System Center的大數據平臺叫Microsoft HDInsight Server,安裝在Windows Azure上的叫Microsoft HDInsight Service”這個定義來自MSDN的一篇博客,也許看上去有些抽象,TechEd 2012技術大會現場,微軟亞太研發集團首席技術官孫博凱的演講中,為大家Demo演示了HDInsight的應用場景。
Excel的用戶就可以ODBC讀取Hadoop資料
孫博凱在接受51CTO記者專訪時特別談到:“微軟針對關系型數據、非關系型數據和數據流的管理,第一步是打造一個平臺,在這個平臺下,各種類型的數據都可以進來集中整合。第二步是提供一個工具,讓所有的數據可以進行清理和分析。我們相信所有的洞察力都來自數據與數據之間的關聯度。”在大數據領域目前常用的案例,關于美國油價波動對汽車銷售的影響,也正是利用了這兩個數據的關聯產生的市場洞察。
技術之外,微軟的重要優勢便是幫助消費者通過他們最熟悉的工具來開展應用。在Demo中可以看到,不論是Hadoop on Windows Server或Hadoop on Windows Azure都可以讓用戶通過Excel讀取Hadoop平臺的數據。并在Excel環境下,整合分析結構化數據與非結構化數據。孫博凱表示,目前相關的應用可以支持Excel、PowerPivot for Excel以及Power View等工具。
在一些資料中了解到,用戶完成安裝Hive ODBC驅動程序,就可以通過Excel看到新增功能Hive Query,通過輸入要分析的Hadoop平臺數據源路徑,就可以在Excel環境中,以ODBC模式,讀取Hadoop平臺的數據,分析結果以數據表Table或Cube形式,儲存在Excel或SQL Server中。微軟曾多次提出對Hadoop平臺的兼容與重視,這一演示也在TechEd 2012上也成為焦點,因為微軟再一次將大數據的應用直接推送到了用戶的面前。
與Apache Hadoop的深入合作
微軟的搜索技術Bing原本就有MapReduce分布式計算的概念。不過,微軟也選擇了支持越來越多的企業開始使用的Apache Hadoop,并作為非結構化數據處理架構的核心。讓企業可以在Windows環境中處理Hadoop平臺的非結構化數據。
“目前我們主要以Windows Server以及Windows Azure兩大平臺作為基礎,同時和Hortonworks Platform有很好的合作”,孫博凱特別向記者提到:“Hadoop、HDInsight這樣的技術,要采用更加開放的方式與合作伙伴共同推進。現在包括PHP、MySQL、Wordpress都可以在Windows Azure上運行,越來越多的開源技術也將出現在微軟的平臺上”。在現場的技術演示中,微軟還特別針對Windows Azure上的Mobile Services和Media Services,演示了Streaming to iOS的過程。
In-Memory與一體機共同布局大數據
內存計算和一體機是大數據的熱點,今年11月SQL Server用戶組主辦的PASS年度峰會上,微軟副總裁Ted Kummert提出了In-memory Computing是微軟數據平臺交付戰略的核心元素之一,能夠讓用戶分析各種類型的數據,同時加速數據訪問時間。能夠將數據直接寫入RAM進行操作,從而消除性能瓶頸。
在Ted Kummert的博客中了解到,微軟從2010年開始,就已經在SQL Server中提供In-Memory技術,這個項目的代碼為“Hekaton”,將作為SQL server的重要升級模塊來提供,不過目前只是作為預覽版在一小部分用戶中使用。“Hekaton”將會完善微軟的In-Memomory數據組合,同時跨越數據分析與業務交易場景。將會有突破性的性能提高,而且是內置在SQL Server中的,因此企業不需要額外購買專用的硬件或軟件,并且能夠輕松的移植現有應用,就能夠讓這些應用獲得性能的突破性提升。
“歐洲某一在線博彩網站,當一場球賽上演的時候,可以有上億球迷在線觀看,需要在網上進行高復雜性一系列實時操作,他們都想進入這個交易平臺。這對于網站的提供者來說是一個很大的技術挑戰”,孫博凱用一個客戶的實例展現了內存計算技術的突破性提升,他談到:“我們通過內存計算技術,使整個在線交易效率提高了15~20倍。Hekaton是一個拉丁語的名字,是百倍的意思。我們設計這個技術最開始的時候,就希望達到百倍的效率,雖然現在還沒有達到,不過我們會不斷提升In-Memory的技術,希望有更好的突破。”
Ted Kummert在PASS年度峰會上也提到了微軟并行數據倉庫一體機PDW。是針對企業數據倉庫、高度可擴展而設計的軟硬一體機設備,采用“大規模并行處理”(MPP)體系結構。在數據處理方面基于SQL Server 2012的并行數據倉庫提供了全新的PolyBase數據處理技術,xVelocity 列存儲技術,滿足實時數據倉庫的需求,高密度 Direct Attached Storage,存儲容量提升7倍,橫向擴展可以實現從幾個TB到6PB的線性擴展。
關于數據的技術從未像現在這樣令人著迷,是大數據貫穿了應用、數據中心和云,最終化為一種能力。這種能力為是生活,工作與思維帶來變革,我們解讀大數據,也在解讀世界。
編輯推薦:
責任編輯:馬沛
來源:
51CTO.com