Hadoop的過去、現在和未來
Hadoop是目前大數據分析領域中應用最廣泛的一種分布式架構,而經過相當長時間的發展,Hadoop在功能上也越來越成熟。不過,在這個星球上,你找不到擁有11年Hadoop經驗的人。因為目前在Hadoop領域經驗最豐富的人是Doug Cutting,他在Hadoop方面擁有的經驗是10年零7個月。而這位Doug Cutting正是Hadoop之父,Cloudera公司首席架構師。
作為處理海量數據最常用的方法,Hadoop的核心是Map和Reduce,也就是將一個龐大的任務進行分解,然后再將結果進行匯總。但經過10年發展,Hadoop的功能早已不是MapReduce這么簡單。今天的Hadoop是分布式計算所涉及的計算、存儲、文件系統、網絡、安全、負載均衡、管理等一系列軟件方法的合集。也正是由于其完整性和成熟度,今天的Hadoop雖然面臨Spark等新興技術的競爭,卻仍是分布式計算領域不可或缺的基礎和前提。
作為一個開源項目,Hadoop目前仍在告訴發展、快速更新;作為開源軟件服務的成功踐行者,Cloudera的Hadoop發行版本正在成為越來越多企業在部署分布式計算系統時的首選。
開源與商業,過去和未來;身為Hadoop之父、Cloudera公司首席架構師、Apache基金會前主席,Doug Cutting確實有話要說。
Hadoop成功的基礎
Hadoop無疑是Apache基金會中最引人注目和最龐大的頂級項目之一。由于Hadoop定義了分布式計算的方方面面,因此日常的代碼提交量也非常巨大。而在海量的代碼見決定Hadoop未來走向的則是一個接近百人的評審委員會。
Doug Cutting表示:評審委員會的成員來自各個領域,他們有IT企業中的技術達人、有相關學科的大學教授、有應用專家、更有單純的技術愛好者。而在這個龐大的評審委員會中,所有成員均擁有“一票否決權”。雖然委員們各自有不同的背景甚至公司利益,但在委員會中,所有人的投票都是相當慎重的。投票所考慮的核心因素只有一個,那就是Hadoop未來的發展。而任何否決票的出現也必須給出技術上的合理解釋。
可以說,Hadoop與Apache基金會的其他項目一樣,是一個“人人為我、我為人人”的開放環境。
由于有越來越多Cloudera這樣的開源企業源源不斷的將自己的創新和Debug回饋給整個社區以及優秀的委員會機制,Hadoop在今天仍保持著相當旺盛的生命力。
總結Hadoop過去的成功無非兩點:一是從技術上開創了分布式計算時代,二是Apache基金會和Hadoop項目開放、合作、共享的管理理念。
Hadoop如何保持成功
任何一項技術都有其自身的發展路徑。而作為一項非常有潛力的技術,Hadoop的未來發展的根基仍然要依靠廣泛的應用基礎。
Cloudera是目前眾多Hadoop發行版中最流行的一個,而Cloudera回饋社區的方式也并不只是簡單的貢獻代碼。
日前,Cloudera與清華大學聯合發布BASE (Big Analytics Skill Enablement)倡議,旨在幫助清華大學數據科學研究院培養更多大數據分析專業人才,以填補國內大數據領域人才匱乏的現狀。
換句話說,Cloudera將幫助清華大學數據科學研究院培養更多Hadoop使用者和開發者。這樣做一方面能夠緩解國內大數據人才緊缺的現狀,讓大數據技術能夠進入更多企業和行業;另一方面也為Hadoop項目在未來能夠持續發展創造條件,畢竟對于一向技術來說,有人用才有未來。
雖然清華大學是國內首家與Cloudera合作的高效,但從全球來看,Cloudera與教育界的合作已經開展多年。Doug Cutting表示:Cloudera已經與美國、歐洲、新加坡以及亞洲其他國家的高校和研究機構開展了廣泛的合作,為他們提供全套免費課程,幫助大學生和研究人員能夠更好的使用大數據技術。
顯然,Cloudera所執行的是一項相當長遠的計劃,這也說明Cloudera對Hadoop技術未來發展的信心。
面對競爭,Hadoop的未來是怎樣的?
與商業領域一樣,技術同樣面臨競爭。在很多人看來,Hadoop目前最大的競爭對手正是非常火爆的Spark。
對此,Doug Cutting表示:Spark的確在MapReduce方面相比Hadoop擁有更大的性能優勢。但Hadoop本身還包括分布式文件系統和任務調度、規劃等眾多功能;而這些則是Spark所沒有的。
作為開源技術,Hadoop和Spark都是模塊化開發的。這也就意味著他們是可以相互融合,一起使用的。
在未來,我們很可能看到Spark取代了Hadoop中的MapReduce模塊,但分布式計算系統中的存儲和調度等功能仍需要Hadoop來實現。
換句話說,Hadoop與Spark之爭實際是個偽命題,同樣是大數據分析技術,他們的未來應該是融合和協作。
大數據的故事才剛剛開始
從行業整體的發展來看,人類只是剛剛意識到了大數據的重要性,而大數據技術本身的發展和完善仍需要相當長的時間。而對于像Cloudera這樣在大數據領域取得先發優勢的企業來說,無論是大數據還是開源技術,故事才知是剛剛開始。未來仍舊不可估量。