Hadoop和大數(shù)據(jù)正式走到頭了:13個(gè)相關(guān)的Apache開源項(xiàng)目宣布報(bào)廢
看起來Hadoop和大數(shù)據(jù)的光輝歲月正式走到頭了。
Apache軟件基金會(huì)已在短短11天內(nèi)宣布報(bào)廢13個(gè)與大數(shù)據(jù)有關(guān)的Apache項(xiàng)目,其中包括Sentry、Tajo和Falcon。
昔日大數(shù)據(jù)領(lǐng)域的寵兒Apache Hadoop早已過氣,最近這已不是什么秘密。不過自4月1日起,Apache軟件基金會(huì)(ASF)已宣布將至少19個(gè)開源項(xiàng)目“束之高閣”(Attic),其中13個(gè)項(xiàng)目與大數(shù)據(jù)有關(guān),其中10個(gè)項(xiàng)目屬于Hadoop生態(tài)系統(tǒng)。
光榮榜
雖然宣布報(bào)廢單個(gè)項(xiàng)目似乎微不足道,可是從整體上來看,它們無異于一起分水嶺事件。為了幫助從業(yè)人員和行業(yè)觀察人士充分認(rèn)識(shí)到這次大數(shù)據(jù)開源重組帶來的全面影響,盤點(diǎn)一下似乎很必要。
考慮到這點(diǎn),與大數(shù)據(jù)有關(guān)的已報(bào)廢的Apache項(xiàng)目包括如下:
- Apex:這個(gè)統(tǒng)一的平臺(tái)面向大數(shù)據(jù)流和批處理,基于Hadoop YARN。
- Chukwa:這個(gè)數(shù)據(jù)收集系統(tǒng)用于監(jiān)控大型分布式系統(tǒng),基于Hadoop分布式文件系統(tǒng)(HDFS)。
- Crunch,它提供了一套框架,用于編寫、測(cè)試和運(yùn)行MapReduce(包括Hadoop MapReduce)管道。
- Eagle:這種分析解決方案用于立即發(fā)現(xiàn)大數(shù)據(jù)平臺(tái)(包括Hadoop)的安全和性能問題。
- Falcon:這種面向Hadoop的數(shù)據(jù)處理和管理解決方案,為數(shù)據(jù)移動(dòng)、數(shù)據(jù)管道協(xié)調(diào)、生命周期管理和數(shù)據(jù)發(fā)現(xiàn)而設(shè)計(jì)。
- Hama:這種用于大數(shù)據(jù)分析的框架在Hadoop上運(yùn)行,基于Bulk Synchronous Parallel范式。
- Lens:提供統(tǒng)一分析界面,將Hadoop與傳統(tǒng)數(shù)據(jù)倉庫集成起來,如同一個(gè)整體。
- Marmotta:一種面向鏈接數(shù)據(jù)的開放平臺(tái)。
- Metron:專注于實(shí)時(shí)大數(shù)據(jù)安全。
- PredictionIO:這種機(jī)器學(xué)習(xí)服務(wù)器用于管理和部署生產(chǎn)就緒的預(yù)測(cè)服務(wù)。
- Sentry:這種系統(tǒng)用于對(duì)Apache Hadoop中的數(shù)據(jù)和元數(shù)據(jù)執(zhí)行細(xì)粒度授權(quán)。
- Tajo:Hadoop上的大數(shù)據(jù)倉庫系統(tǒng)。
- Twill,使用Hadoop YARN的分布式功能以及類似運(yùn)行中線程的編程模型。
房間里的大象
上面這份名單很長(zhǎng),而且是一份還包括非大數(shù)據(jù)項(xiàng)目的更長(zhǎng)名單的一部分。很顯然,Apache軟件基金會(huì)正在做一番清理工作。此外,由于Cloudera和Hortonworks合并,Sentry和Metron實(shí)際上已遭棄用,對(duì)應(yīng)的Ranger項(xiàng)目和Spot項(xiàng)目改而受到追捧。兩家公司共同支持這所有四個(gè)項(xiàng)目,只有一對(duì)項(xiàng)目才能取得勝利。
這樁合并本身植根于大數(shù)據(jù)市場(chǎng)的合并。可以說,這起大數(shù)據(jù)合并還能解釋上述報(bào)廢項(xiàng)目的整份名單。退一步說,在不到兩周的時(shí)間內(nèi)宣布報(bào)廢所有這些項(xiàng)目值得關(guān)注。
官方說法
ZDNet編輯Andrew Brust向Apache軟件基金會(huì)詢問了有關(guān)清理大數(shù)據(jù)項(xiàng)目的情況。Apache軟件基金會(huì)的營(yíng)銷和公關(guān)副總裁Sally Khudairi通過電子郵件回復(fù)道:“Apache項(xiàng)目的活動(dòng)在其一生中起伏不定,這取決于社區(qū)的參與情況。”Khudairi補(bǔ)充道:“從項(xiàng)目管理委員會(huì)(PMC)內(nèi)部到投票決定將項(xiàng)目束之高閣的理事會(huì),我們審查和評(píng)估數(shù)個(gè)Apache項(xiàng)目的活動(dòng)有所加大。”Khudairi還表示,Apache軟件基金會(huì)Apache Attic副總裁Hervé Boutemy“最近通過‘春季大掃除’,在過去幾個(gè)月清理掉了準(zhǔn)備報(bào)廢的十幾個(gè)項(xiàng)目,一直非常高效。”
盡管Apache軟件基金會(huì)聲稱這次大數(shù)據(jù)清理活動(dòng)只是常規(guī)項(xiàng)目報(bào)廢一下子集中而已,但很明顯,大數(shù)據(jù)領(lǐng)域的形勢(shì)已發(fā)生了變化。Hadoop在開源分析技術(shù)的霸主地位已讓給了Spark,Hortonworks與舊的Cloudera之間項(xiàng)目無意義重復(fù)的現(xiàn)象已被終止,而這些項(xiàng)目當(dāng)中優(yōu)勝劣汰的自然選擇業(yè)已完成。
不妨注意點(diǎn)
同樣很顯然,在大數(shù)據(jù)世界,Apache Sentry方面大筆投入的眾多供應(yīng)商和客戶現(xiàn)在將需要彌補(bǔ)其損失,繼續(xù)前進(jìn)。這個(gè)殘酷的現(xiàn)實(shí)帶來了幾乎適用于每個(gè)技術(shù)類別炒作周期的教訓(xùn):社區(qū)為之興奮,開源技術(shù)遍地開花,生態(tài)系統(tǒng)確立起來。但是那些生態(tài)系統(tǒng)并不是永生的,幾乎任何新平臺(tái)(無論是商業(yè)平臺(tái)還是開源平臺(tái))都存在固有的風(fēng)險(xiǎn)。
用Apache軟件基金會(huì)的Khudairi的話來說:“每個(gè)項(xiàng)目背后的社區(qū)確保其代碼的活力(‘代碼不會(huì)自行編寫’),因此社區(qū)在某個(gè)項(xiàng)目上改變步伐的情況并不少見。”換句話說,先進(jìn)技術(shù)令人興奮,但早期采用者要提防:先進(jìn)技術(shù)也存在著變數(shù)。要小心,管理好風(fēng)險(xiǎn)。