觀點:Gartner只是否定Hadoop一體化平臺模式
國內很多人對Hadoop失寵的言論都不屑一顧,認為無非是常規的廠商運作和技術炒作。開篇,我們有必要了解一下整個事件導火索的這篇Gartner報告——《2017年數據管理技術成熟度曲線》,這篇報告指出Hadoop整個堆棧的復雜性與可用性導致企業重新考慮是否將其納入基礎架構規劃中,Hadoop可能在到達“生產成熟期”之前就會過時。到2018年,70%的Hadoop部署無法實現節約成本和收入增長的目標。
很多Hadoop忠實使用者對這篇報告進行了大量抨擊,一個比一個理由豐富,言辭激烈。但是,很多人都錯誤得或者沒有完全理解這篇報告。
根據參與該篇報告討論的專家反饋,Gartner否定的只是Hadoop一體化平臺商業模式,而不是全盤否定Hadoop整個生態。Gartner就當前現狀給出的結論是,越來越多的工具出現,企業將會有更多的選擇,因而看中結果而非綁定一個固定的平臺。Hadoop在大數據領域的地位可能會逐漸向邊緣移動。
其二,實時性和SQL需求在一定程度上限制了Hadoop在線業務數據管理場景的發展。
最后,幾大Hadoop廠商對開源方案的干預性越來越強,使得開源項目在發展路徑上發生了變化。
根據Gartner與用戶的對話,很多公司正在尋求更有競爭力和更方便的基于云的選項,傾向于選擇按需定價的數據處理方案。其實,很多國內外廠商早已做出了相應的變化,比如提供各種跨云供應商的定制方案。亞馬遜、谷歌和微軟等云服務提供商都提供輕量級的技術來管理和分析多結構化數據。
雖然我們認為Hadoop的地位是穩固的,但我們的使用習慣已經暴露出Hadoop生態的衰落趨勢。國內很多廠商已經在尋找各種工具彌補Hadoop在機器學習方面的缺陷,替換Hadoop生態中表現不佳的組件,我們更傾向于根據業務需求選擇合適的組件,而不再單單使用Hadoop生態并強調其生態完整的重要性。當被替換的組件越來越多,Hadoop生態這幾個字顯然不可能代表新的生態體系,這也是在弱化Hadoop一體化平臺商業模式。
Hadoop中的不少功能,比如并行數據處理和基于多結構化數據的SQL,重要性和價值也在逐漸凸顯。由于云計算的大力推進,在云中運行完整的Hadoop堆棧成本較高,而其強大的簡化替代品的可用性同樣表明,Hadoop一體化平臺商業模式即將在高峰期之前走下坡路。
任何一種技術的發展過程都會幾經波瀾,對Hadoop而言同樣如此。Gartner報告造成的輿論效果對國內廠商的沖擊并沒有我們想象中那么大。相比于國外廠商而言,國內大數據環境的復雜性(數據量大,場景復雜)早已造就了更加多元的Hadoop生態,國內用戶不僅將Hadoop用于批處理等簡單場景,更多的是用于構建數據倉庫、實時流處理,全文搜索,機器學習,拓撲圖分析等。
面對Hadoop中各式各樣的組件,各大廠商早已適配出屬于自己的最佳解決方案。因此,即便輿論恐慌,但國內廠商基本都反應平淡,并沒有因此打算更換大數據底層架構。Hadoop核心組件的超高認可度依然是無法被追趕的。