解讀微軟大數據

作者：馬沛 2012-12-20 13:02:20

“微軟針對關系型數據、非關系型數據和數據流的管理，第一步是打造一個平臺，在這個平臺下，各種類型的數據都可以進來集中整合。第二步是提供一個工具，讓所有的數據可以進行清理和分析。”

【51CTO獨家報道】“安裝在Windows server和System Center的大數據平臺叫Microsoft HDInsight Server，安裝在Windows Azure上的叫Microsoft HDInsight Service”這個定義來自MSDN的一篇博客，也許看上去有些抽象，TechEd 2012技術大會現場，微軟亞太研發集團首席技術官孫博凱的演講中，為大家Demo演示了HDInsight的應用場景。

Excel的用戶就可以ODBC讀取Hadoop資料

孫博凱在接受51CTO記者專訪時特別談到：“微軟針對關系型數據、非關系型數據和數據流的管理，第一步是打造一個平臺，在這個平臺下，各種類型的數據都可以進來集中整合。第二步是提供一個工具，讓所有的數據可以進行清理和分析。我們相信所有的洞察力都來自數據與數據之間的關聯度。”在大數據領域目前常用的案例，關于美國油價波動對汽車銷售的影響，也正是利用了這兩個數據的關聯產生的市場洞察。

技術之外，微軟的重要優勢便是幫助消費者通過他們最熟悉的工具來開展應用。在Demo中可以看到，不論是Hadoop on Windows Server或Hadoop on Windows Azure都可以讓用戶通過Excel讀取Hadoop平臺的數據。并在Excel環境下，整合分析結構化數據與非結構化數據。孫博凱表示，目前相關的應用可以支持Excel、PowerPivot for Excel以及Power View等工具。

在一些資料中了解到，用戶完成安裝Hive ODBC驅動程序，就可以通過Excel看到新增功能Hive Query，通過輸入要分析的Hadoop平臺數據源路徑，就可以在Excel環境中，以ODBC模式，讀取Hadoop平臺的數據，分析結果以數據表Table或Cube形式，儲存在Excel或SQL Server中。微軟曾多次提出對Hadoop平臺的兼容與重視，這一演示也在TechEd 2012上也成為焦點，因為微軟再一次將大數據的應用直接推送到了用戶的面前。

與Apache Hadoop的深入合作

微軟的搜索技術Bing原本就有MapReduce分布式計算的概念。不過，微軟也選擇了支持越來越多的企業開始使用的Apache Hadoop，并作為非結構化數據處理架構的核心。讓企業可以在Windows環境中處理Hadoop平臺的非結構化數據。

“目前我們主要以Windows Server以及Windows Azure兩大平臺作為基礎，同時和Hortonworks Platform有很好的合作”，孫博凱特別向記者提到：“Hadoop、HDInsight這樣的技術，要采用更加開放的方式與合作伙伴共同推進。現在包括PHP、MySQL、Wordpress都可以在Windows Azure上運行，越來越多的開源技術也將出現在微軟的平臺上”。在現場的技術演示中，微軟還特別針對Windows Azure上的Mobile Services和Media Services，演示了Streaming to iOS的過程。

In-Memory與一體機共同布局大數據

內存計算和一體機是大數據的熱點，今年11月SQL Server用戶組主辦的PASS年度峰會上，微軟副總裁Ted Kummert提出了In-memory Computing是微軟數據平臺交付戰略的核心元素之一，能夠讓用戶分析各種類型的數據，同時加速數據訪問時間。能夠將數據直接寫入RAM進行操作，從而消除性能瓶頸。

在Ted Kummert的博客中了解到，微軟從2010年開始，就已經在SQL Server中提供In-Memory技術，這個項目的代碼為“Hekaton”，將作為SQL server的重要升級模塊來提供，不過目前只是作為預覽版在一小部分用戶中使用。“Hekaton”將會完善微軟的In-Memomory數據組合，同時跨越數據分析與業務交易場景。將會有突破性的性能提高，而且是內置在SQL Server中的，因此企業不需要額外購買專用的硬件或軟件，并且能夠輕松的移植現有應用，就能夠讓這些應用獲得性能的突破性提升。

“歐洲某一在線博彩網站，當一場球賽上演的時候，可以有上億球迷在線觀看，需要在網上進行高復雜性一系列實時操作，他們都想進入這個交易平臺。這對于網站的提供者來說是一個很大的技術挑戰”，孫博凱用一個客戶的實例展現了內存計算技術的突破性提升，他談到：“我們通過內存計算技術，使整個在線交易效率提高了15~20倍。Hekaton是一個拉丁語的名字，是百倍的意思。我們設計這個技術最開始的時候，就希望達到百倍的效率，雖然現在還沒有達到，不過我們會不斷提升In-Memory的技術，希望有更好的突破。”

Ted Kummert在PASS年度峰會上也提到了微軟并行數據倉庫一體機PDW。是針對企業數據倉庫、高度可擴展而設計的軟硬一體機設備，采用“大規模并行處理”（MPP）體系結構。在數據處理方面基于SQL Server 2012的并行數據倉庫提供了全新的PolyBase數據處理技術，xVelocity 列存儲技術，滿足實時數據倉庫的需求，高密度 Direct Attached Storage，存儲容量提升7倍，橫向擴展可以實現從幾個TB到6PB的線性擴展。

關于數據的技術從未像現在這樣令人著迷，是大數據貫穿了應用、數據中心和云，最終化為一種能力。這種能力為是生活，工作與思維帶來變革，我們解讀大數據，也在解讀世界。

編輯推薦：

微軟數據庫一體機升級新技術架構滿足大數據挑戰

微軟數據倉庫一體機國內首單花落國家審計總署

責任編輯：馬沛來源： 51CTO.com

大數據 Hadoop 內存計算一體機 SQL Server 2012 HDInsight

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

解讀微軟大數據