攜手Hortonworks市場副總裁:探討Hadoop目前使用情況
我們正生活在“大數據”的時代。在當今這個技術驅動的世界,計算能力、電子設備和Internet的可達性正在日益增長,同時比以往任何時候更多的數據正在被傳輸和收集。組織正在以驚人的速度產生數據。僅Facebook自己每天就會收集250 TB的數據。Thompson Reuters News Analytics顯示,現在數字數據的產生量比2009年接近1 ZB(1 ZB等同于一百萬PB)的量增長了兩倍多,到2015年將有可能達到7.9 ZB,到2020年則有可能會達到35 ZB。
隨著組織已經開始收集并產生大量的數據,他們也開始認識到數據分析的優勢,但是他們也必須奮力地管理自己所擁有大量的信息。據Alistair Croll所說:
擁有大量數據但是沒有大量線索的公司將會被雖然擁有更少的數據但是有更多線索的創業公司所取代… |
這意味著除非你的業務理解它所擁有的數據,否則它將不能與理解這些數據的企業競爭。企業已經意識到:分析與商業競爭、態勢感知、生產力、科學和創新相關的大數據能夠獲得巨大的收益。同時現在大部分公司將Hadoop作為自己分析大數據和掌握大數據挑戰的一個主要工具。
根據Hortonworks的調查,Hadoop現在已經被很多大型主流組織所部署(50%的調查對象來自于收入超過$500M的組織),這些組織分布在很多行業,包括:高科技、醫療保健、零售業、金融服務、政府和制造業。
大部分情況下,Hadoop并不會替代已有的數據處理系統,而是作為已有產品的補充。Hadoop通常會與已有的系統互補,它挖掘額外的業務數據,同時也是一個更加強大的分析系統讓你能夠更好地洞察業務信息從而獲得競爭優勢。54%的調查對象正在利用Hadoop捕獲新型數據,同時還有48%的人打算這樣做。主要的新型數據包括:
- 服務日志數據,能夠讓IT部門更好地管理他們的基礎設施(64%的調查對象已經這樣做了,同時還有28%正計劃這樣做)。
- 點擊流數據,能夠讓你更好地理解客戶是如何使用應用程序的(52.3%的調查對象已經這樣做了,同時還有37.4%正計劃這樣做)。
- 社交媒體數據,能夠讓你了解公眾對公司的看法(36.5%的調查對象已經這樣做了,同時還有32.5%正計劃這樣做)。
- 地理/位置數據,能夠用來分析旅行模式(30.8%的調查對象已經這樣做了,同時還有26.8%正計劃這樣做)。
- 機器數據,能夠用來分析機器的使用情況(29.3%的調查對象已經這樣做了,同時還有33.3%正計劃這樣做)。
根據調查,傳統數據的平均增長率大約是每年8%,而新型數據的增長率則超過了85%,因此離開了Hadoop幾乎不可能收集并處理它們。
InfoQ有幸能夠與Hortonworks公司的市場副總裁David McJannet一起討論該調查的結果。
InfoQ:根據此次調查的結果,好像Hadoop應用的更加廣泛但是深度卻不夠。好像越來越多的人正在開始使用Hadoop,但是在很多情況下他們的使用僅限于大量數據的存儲和對這些數據執行簡單的Hive/SQL查詢。你認為這種趨勢將會繼續么?
McJannet:我認為Hadoop在某些行業中已經應用得非常深入:對于早期的采用者而言,Hadoop是整體數據架構的基礎,同時這些公司現在也已經廣泛使用Hadoop。但是在2013年我們發現它開始真正地擴大,這從Hadoop Summit的調查報告中就可以看出來。
讓我們思考一下驅動采用率迅速攀升的原因,我認為至少有3個明確的因素:
- 對Hadoop用例有了更好的理解。實際上這一點在調查結果中有所表現,結果顯示2個主要推動力是:(a)基于新型數據構建的新型分析系統,(b)作為整體架構的一部分管理長期增長的數據。
- 技術本身的快速發展繼續簡化了使用,同時也為大規模推廣創造了條件。Hadoop 2在很多方面都有巨大的進步,同時它還吸收了廣大社區幾年來的工作。
- 市場上的供應商擁抱該生態系統。例如,Microsoft所做的工作允許Excel用戶直接連接到Hortonworks 數據平臺(HDP)上拉取數據進行分析。而更加復雜的分析通常會在SAS這樣的工具中完成,為了將SAS分析工具連接到HDP上他們作了非常深入的工作。這使得該工具的使用變得更加簡單,在很多情況下最終用戶甚至根本就不知道他們正在使用Hadoop。
InfoQ:你認為應用Hadoop的下一步是什么?你會如何定義像Hortonworks這樣的公司或者供應商在該過程中的角色?
McJannet:我看到了一個與企業使用非常一致的模式:大部分用戶最初采用Hadoop的目的是創建一個新型分析系統——在大多數情況下是由某個行業線(例如市場營銷)、或者由某個業務組推動的。在***批項目取得成功之后,數據架構團隊會意識到Hadoop在整個數據架構中的價值,進而將推動Hadoop下一階段的使用——通常是創造一個“數據湖”或者是相似的概念。對于Hortonworks,我認為我們的角色是讓Hadoop市場能夠運行起來:
- 聯合該生態系統中的其他組織確保開源的Hadoop能夠持續地在開源領域發展同時為所有人服務
- 提供一個真正的已經經過大規模集成和測試的企業級平臺,同時合并開源社區最近的創新。
- 確保它與用戶已有的工具和技術的集成性和互操作性。這就是為什么我們會努力工作以確保HDP可以與來自于HP、Microsoft、SAP、SAS、Teradata等公司的技術進行認證的原因——事實上,現在所有的這些合作伙伴都將HDP作為他們產品中的一個組件進行轉售。一般來說,大多數組織所依賴的供應商依賴于Hortonworks針對Hadoop研發的相關產品,這種方式能夠讓整個市場更快地運行和成熟。
InfoQ:盡管Hadoop提供了驚人的處理能力,遠遠超過了SQL,但是Hive在Hadoop的使用上依然有舉足輕重的地位。同時有更多的公司正在為Hadoop數據提供實時SQL查詢解決方案,強調將SQL作為主要的Hadoop編程語言的聲音似乎增長得更多。你認為這是一個短期現象還是一個長期趨勢?
McJannet:鑒于當今世界豐富的SQL技能,對存儲在Hadoop中的數據進行訪問時最常用的方式之一是使用SQL這并不稀奇。在這一方面,Apache Hive是到目前為止Hadoop SQL查詢領域的一個占主導地位的工具。當然,一些希望抓住這一市場機遇的專有供應商也在Hadoop之上推出了一些新產品,但是總的來說Hive是標準同時也很有可能始終都是,特別是考慮到為了繼續提升Hive的速度、規模和SQL語義Microsoft、SAP、Hortonworks以及其他組織在Stinger Initiative上所做的工作。
除了SQL之外,還有很多其他的方式可以訪問存儲在Hadoop中的數據,但是公平一點地說,使用SQL/Hive將會是最主要的途徑。例如,Hive往往是所有基于Hadoop的BI工具所使用的接口。但是對于更加復雜的用例,我們確實會看到廣泛使用的技術,例如Pig(腳本查詢),同時還有更加普遍的高端工具,它們所使用的接口對用戶而言并不可見,例如R和SAS。
隨著時間的發展,最常用的接口很有可能是一個打包的應用程序(SAS、Microstrategy、Excel、業務對象、Platfora等),最終用戶根本就不需要知道底層用了什么。
InfoQ:你認為Hadoop將會被用于構建主流企業應用程序么?大約什么時候我們才能看到這些應用程序?
McJannet:毫無疑問!歷史告訴我們Web公司是采用這些新型技術(例如現在正在發展中的Hadoop)的先鋒。這些公司已經基于Hadoop構建他們的主流應用程序幾年了,現在我們看到主流的企業也在遵循同樣的路徑。
也是出于這方面的原因,我們才有了這樣一個焦點:與人們已經擁有的開發技能集成。例證:.NET開發者?.NET SDK for Hadoop是基于開源HDP的。Java開發者?Java Spring(構建Java應用的主要框架)的HDP認證將會是這個遷移的一個強力推動者。
什么時候?做這種類型的預測一直都非常難,但是我認為新生技術的轉變通常會需要比預期更長的時間,同時意義也要比預期更加深遠。Hadoop技術的使用到現在已經進行了好幾年,現在才真正地開始固定下來,因為事實證明它能夠帶來客戶群的增長。作為一個供應商,我們認為我們角色中的一個非常重要的方面是:關注于技術和技能的集成從而以最及時最合理的方式推動它的發展。