Hadoop 氣數已盡?
Hadoop
我先從一個悲觀的觀點說起:Hadoop 正在迅速失去市場,我們可以從 Google 趨勢走向看出這個現象:
下面的炒作生命周期表也上面的趨勢很類似:
看起來 Hadoop 正處于炒作圖的下坡軌道上,正在走向滅亡。我們都知道前段時間 Cloudera 已經收購了 Hortonworks,這意味著市場上最大的兩個 Hadoop 廠商現在只有一個。盡管收購成功進行了,但是 Cloudera 遠未在股市上取得成功,特別是6月6日 Cloudera 的股價幾乎腰斬:
從本質上講,市場上只剩下一個主要的 Hadoop 服務商 Cloudera。如果我告訴你 Cloudera 很久以前就不是主要搞 Hadoop 的呢?這是一個有趣的事情:根據互聯網檔案,過去幾年中 Cloudera 首頁(http://cloudera.com)上出現“Hadoop”這個詞的次數如下:
- 2008年 - 4次
- 2009年 - 11次
- 2010年 - 29次
- 2011年 - 37次
- 2012年 - 23次
- 2013年 - 9次
- 2014年 - 4次
- 2015年 - 8次
- 2016年 - 6次
- 2017年 - 1次
- 2018年 - 1次
- 2019年 - 2次
如今,Cloudera 在其網站首頁以粗體字寫著:“我們為任何數據提供企業數據云,從 Edge 到 AI ”(We deliver an Enterprise Data Cloud for any data, anywhere, from the Edge to AI)。我們可以清楚地看到焦點的轉變 - 不再是 Hadoop 和 CDH,不再是大數據。現在他們做企業云和人工智能,只能在 “Quickstart VMs” 連接進入的頁面上找到對 CDH 相關的東西。
但是 Hadoop 真的很糟糕嗎? 一點也不!事實上,這并不是 Hadoop 在走向終結,而是“大數據”的炒作。在介紹這個之前,讓我們先來看看 Apache Spark。
Apache Spark
Apache Spark 是搭上“大數據”最后一班車的成員,下面是 Apache Hadoop 和 Apache Spark 的 Google 全球搜索趨勢:
從圖中可以看到,Spark 最近幾年迅速崛起,與 Hadoop 并列成為大數據最火的框架。 基于此圖表,我們可以清楚地看到它已經達到了“大數據”市場的上限。這意味著沒有更多的水平增長空間,唯一的前進方法是垂直增長。這就是為什么 2019 年我們不再有 Spark Summit,而出現一個閃亮的新 Spark + AI 峰會。
Big Data
大數據是處理大量數據的問題。但這個詞被大肆炒作,現在它有明顯的消極成份。在炒作的高峰時期,任何東西都可能被貼上“大數據”的標簽來提升銷量。然而,很明顯“大數據”本身并不是一件事,并且本身沒有任何價值。
“大數據”是 2000-2005 年幾個大型互聯網公司所面臨的問題。在那個時間點,這是一個非常具有挑戰性的問題。沒有關于如何處理它的知識,當然也沒有這樣做的開源解決方案。許多大型互聯網公司已成為該行業的領導者,并向我們贈送了我們現在稱之為“大數據”的東西:谷歌的 GFS,MapReduce 和 BigTable,雅虎的 Hadoop,Facebook 的 Cassandra 和 Hive,Twitter 的 Storm,LinkedIn 的 Kafka。大型互聯網公司通過發明新方法和工具來利用他們必須處理的大量數據來推動革命。它們中的許多公司都開源了它們的軟件,使得這些軟件可供全世界使用。這是一個關鍵時刻,因為它誕生了一系列創業公司,其使命是將所有這些解決方案出售給傳統企業。其中包括 Cloudera,Hortonworks,MapR 和其他許多公司。
圍繞“大數據”的炒作很大程度上是由于上述創業公司對其營銷的巨額投資以及傳統企業中 IT 人員的短視而造成的。市場營銷已經利用了大型互聯網公司生產的“大數據”技術與該公司的成功之間的聯系。他們的營銷材料并沒有直接說明這一點,但它的字面意思是“使用 Cassandra 并且像 Facebook 一樣成功”,“使用 Kafka 并達到 LinkedIn 的規模”,“使用 Hadoop 并變得像 Google 一樣富有”。總體而言,“大數據”并不是在銷售技術,而是將大型 IT 巨頭的成功賣給傳統公司。
不出所料,許多企業正在購買這些技術,并在其堆棧中實施這些技術。由于這一實施,他們通常大膽宣布他們正在利用“大數據”的力量,他們的企業在這個問題上取得了進步。然而,通常實現本身更像是一個實驗 - 除了主要的數據處理管道之外,一些小而孤立的案例,甚至可能無法交付給生產并保留在 PoC 或 MVP 級別。
然而,許多小型企業正在購買大型企業的這一信息及其成功案例,并將其資金和努力投入到“大數據”中。通過這種方式,大肆宣傳成為一種大雪球,越來越多的資深人士直言不諱或不能說出完整的真相,營銷人員利用他們的話語(有時會刪除重要的背景)來進一步推廣他們的解決方案。
一個時代的結束
所以,我并不是說一些新的突破性技術已經取代了“大數據”,我也不是說 Hadoop 不再是一種可行的技術,不再值得投資。我說的是“大數據”時代即將結束,從炒作的高峰下降到最低點。新的趨勢 AI 和 ML,已經取代它們,生命的循環再次開始,新的技術在炒作圖上攀升,營銷人員推銷新軟件,以科技巨頭的成功為代表,以及傳統企業購買這種軟件,消滅了下一個科技泡沫。
Hadoop 時代真的結束了嗎?
并沒有!Hadoop 是一項偉大的技術,但它本質上是一個很好的解決方案,但是只有少數企業真正需要它。作為一項技術,它與提供替代大規模存儲解決方案的主要云廠商競爭:AWS 包含 S3,GCP 包含云存儲,Microsoft 包含 Azure 存儲等。云計算一點一點地吞噬了自建部署市場,云計算提供商及其分布式存儲解決方案在我看來是 Hadoop 的主要競爭對手,Hadoop 未來將面臨更多的挑戰。
本文轉載自微信公眾號:過往記憶大數據
本文翻譯自:https://0x0fff.com/hadoop-the-end-of-an-era