部署標準化的大數據軟件堆棧尚需時日
譯文【51CTO經典譯文】近日,幾位專家在參加科技博客網站GigaOm主辦的一次虛擬專題小組討論會時得出結論,盡管許多企業對大數據平臺的興趣日漸濃厚,但是可能需要一段時間以后才能部署標準化的大數據軟件堆棧(software stack)。
專題討論小組的成員們一致認為,一整套標準化的大數據分析軟件有望讓用戶更容易開發大規模的數據分析系統,正如開源LAMP堆棧在過去的十年間帶來了一整批Web 2.0服務那樣。專題討論小組的成員們表示,但是使用Hadoop等軟件的方式大不一樣,以至于可能很難選定某一套核心技術。
LAMP是指協同運行起來非常順暢的一套軟件程序的縮寫:Linux、Apache Web服務器、MySQL數據庫和一套編程語言:Perl、Python和PHP。
獨立顧問Paul Miller主持了這次名為《為大數據而設計:新的架構堆棧》的專題小組討論會,他說:LAMP“提供了一種通用框架,大家可以在此基礎上進行開發。它可供免費使用,而且通俗易懂。它可以在幾乎任何平臺上運行。它建立了一代新興公司得以成長起來的堅實基礎。”
Miller問道:“隨著我們開始看到用戶對大數據的興趣迅速濃厚起來,我們是否需要一種同樣無所不在的堆棧?我們在大數據方面是否需要LAMP堆棧那樣的堆棧?”大家一致認為,沒有一套標準化的堆棧減慢了部署大數據系統的步伐。市場研究公司GigaOm Pro分析報道云計算技術的研究主任Jo Maitland說:“現在沒有一套標準堆棧,大家不清楚哪些部分最適合處理某種工作負載。現在處于反復嘗試的階段。”
Canonical公司Ubuntu服務器產品經理Mark Baker指出,LAMP之所以大受歡迎,一個原因就是,其用戶都有著類似的要求,都立足于把服務放到網上。他特別指出,另一方面,分析方面的要求往往因企業的不同而不同,而且經常變化。
Dragon Slayer咨詢公司的總裁Mark Staimer表示,像電子港灣和推特這些使用Hadoop的大型Web服務公司采用了“連續改進”的運作模式;它們雇用了大量技術嫻熟的員工,以適應不斷變化的步伐。
Staimer說:“擁有一套不斷完善的平臺和堆棧對它們來說是好事。它們在公司內部擁有管理這套平臺和堆棧的流程和文化。”他補充說,比較傳統的“實體”公司“則要保守得多。它們喜歡看到完全成熟的解決方案。”
考慮到目前現有的技術種類多樣,加上在不同配置的環境下把它們連接起來本身存在相當大的難度,要獲得這樣一套堆棧可能很難。
Maitland說:“現在我們有大量不同的部分,你可以相互接通。單單在數據庫領域,就有MongoDB、Cassandra和HSpace。”所有這些選擇“給人們增添了難度。我們現處于所有這些不同組件混搭的情形。”
Baker表示,出現這樣的多樣性是為了滿足廣大用戶當中不同的要求。比如說,MySQL在讀取數據方面速度超快;而另一方面,Cassandra數據存儲區可以更迅速地寫入數據。Baker特別指出,制作英國電視節目《英國達人》的那家公司之所以使用Cassandra數據庫來記錄觀眾評選最喜愛選手的票數,是因為該數據庫能同時處理眾多的寫入操作。
許多公司已發布了商業Hadoop發行版,比如Cloudera、Hortonworks和MapR;在這些Hadoop發行版中,所有軟件組件都集成起來。Maitland認為,但是連Hadoop本身都并非適合處理所有任務。它如同處理批任務那樣來處理數據,這意味著整個數據集必須先寫入到文件中,之后才能進行分析。不過,許多任務需要分析持續更新的數據,比如點擊流或推特消息。
Maitland表示,此外,堆棧還需要得到不止一家公司的支持,那樣才能成為一項行業標準。他說:“如果將來有一種堆棧,它需要由開源組織來管理,未必是由某一家公司來管理。”
沒有一套標準化堆棧的另一個問題是,這增加了聘請專家來管理和使用大數據系統的成本。眼下,爭奪專家的競爭很激烈。
Baker說:“設法構建一套大數據系統需要知識和技能。把那些系統接入到你的基礎架構中需要花費時間和資金。現在沒有標準的路線圖——這是個不斷摸索的過程。把各部分都拼湊起來并非易事。”
Maitland說:“你別指望這個行業會迎來爆炸式發展,因為目前需要大量的專業知識。”
Staimer補充說:“普通的業務分析人員無法編寫針對Hadoop的查詢語句。”