Hadoop——Microsoft大數據戰略的核心
導讀:眾所周知,大數據浪潮正在漸漸的席卷全球的各個角落。而Hadoop正是這股風暴的動力之源。Microsoft更是史無前例的與Apache Hadoop社區合作。Microsoft此舉就是希望利用自己在軟件領域的優勢構建一個打上Microsoft烙印的Hadoop生態圈。
如今,Microsoft已經將Hadoop作為自身大數據戰略的核心。Microsoft此舉的理由就是看中了Hadoop的潛力,在大數據領域Hadoop已經成為分布式數據處理的標準。通過集成Hadoop技術,Microsoft允許客戶訪問快速增長的Hadoop生態系統。同時隨著越來越多善于在Hadoop平臺進行開發的人才涌出,這對Hadoop發展極其有利。
Microsoft的目標不僅僅是將Hadoop集成到Windows系統之中,Microsoft有意向Apache Hadoop社區貢獻代碼,并希望得到社區的采納。最終使任何人都可以在Windows上運行純粹開源的Hadoop。
打上Microsoft烙印的Hadoop
Microsoft的Hadoop版本目前發展到“客戶技術預覽版”的階段。這意味著Microsoft在接受客戶群體的評價,預計正式版會在2012年中期推出。Microsoft的Hadoop基于Windows Server平臺或Microsoft云平臺Azure之上。在將要推出的1.0版本之中,產品核心包括MapReduce、HDFS、以及Hadoop組件Pig和Hive。
Microsoft的目標是兼容所有的Hadoop組件。Hadoop生態系統中的Zookeeper、HBase、HCatalog和Mahout等組件也會被附加到Microsoft的Hadoop版本之中。

同時Microsoft推出的Hadoop還會與自身之前的商業智能分析產品做整合。
●Hadoop連接器將使Hadoop與SQL Server和SQL Server并行數據倉庫之間的通信變得簡單。
●Hive的ODBC驅動,允許任何Windows應用程序訪問并對Hive數據倉庫進行查詢。
●Excel對Hive的訪問,使數據直接從Hive移動到Excel和PowerPivot。
在后端,Microsoft對Hadoop進行了其他的改善,Microsoft將整合Active Directory方便訪問控制。同時集成System Center用于管理人員管理。
Microsoft官方計劃在即將于6月舉行的TechED大會上公布有關WAAD(Windows Azure Active Directory)的更多細節。這與Microsoft在Windows Server系統上的Active Directory的概念如出一轍。未來使用ACS(Access Control Service)與現有的Active Directory部署時可保證良好的互操作性。
利用JavaScript API與C#進行Hadoop開發

對于Microsoft推出的Hadoop版本***特色的特點之一是附加JavaScript API。Hadoop上的編程工作是乏味的,這就是為什么別的高級語言會出現(如Pig)。
Microsoft選擇在Hadoop環境中添加JavaScript層,開發人員可以使用它創建MapRedcue的工作,甚至在瀏覽器模式下與Pig和Hive進行數據交互。JavaScript層所帶來的真正優勢是將自身集成到Hadoop商業環境中,這使得開發人員能夠輕松創建內網分析環境以便于商業用戶訪問。
Microsoft通過Node.js將JavaScript引入服務器端的Windows Server以及Windows Azure平臺之上。同時Microsoft計劃將自身的JavaScript API貢獻給Apache Hadoop開源社區。這對于Hadoop社區也是一個利好的消息。
更重要的是Microsoft使得使用.NET平臺開發Hadoop應用成為可能。Microsoft計劃直接利用現有Hadoop API使用.NET平臺創建MapReduce任務。更高級別的接口或許將出現在未來的版本中。隨著時間的推移,未來在Visual Studio中對Hadoop項目開發的支持將不斷提高。同時未來運行在Azure之上的Hadoop項目將允許使用.Net Framework框架之上基于Common Language Runtime (CLR)語言(如C#語言)進行編程。
流數據處理系統與NoSQL

對于大數據人談論最多的無疑是Hadoop,但流數據處理以及NoSQL對于大數據同樣重要。對于Microsoft,他們自然會有所準備。Microsoft推出了被稱之為StreamInsight的流數據解決方案。NoSQL方面,Microsoft也具備了Windows Azure平臺上被稱之為Azure Tables的NoSQL數據庫。
展望未來,Microsoft對Hadoop兼容性的承諾意味著,流數據解決方案StreamInsight以及Azure Tables會作為Hadoop環境的一部分與Microsoft分布式HBase作為核心產品推出。同時現今的流數據解決方案(如Yahoo S4)將會與Microsoft相兼容。
與現有工具集成
Microsoft正傾向與向大數據工具集成現有的主要組件,這是否意味著Microsoft打算為企業提供一個綜合數據科學平臺?Microsoft大數據資深產品規劃負責人Madhu Reddy給出了肯定的答案。Microsoft Hadoop開發工作的主要宗旨就是讓人們使用熟悉的工具,Microsoft專注于與現有工具的互操作性。Microsoft此舉涉及各個層面的使用人員,包括開發者、分析師、企業用戶等。Excel是一個無處不在的軟件,Excel與Hive的互聯就是一個很好的例子。不過其他的工具也同樣重要,如MATLAB、SAS或R。
總結
Microsoft大數據戰略確保Windows平臺能夠在大數據時代繼續發揮自身的作用。并使得在數據中心業務中使自身的云服務具備更強的競爭力。Microsoft的另一個做法是將大數據與自身龐大和多樣化軟件無縫集成。可以看出Microsoft的重點是進行大力整合。Microsoft與Apache Hadoop社區的合作確保了新的工具和天才的開發人員向這個平臺遷移。