巧用云平臺簡化Spark集群與大數據部署
譯文在日前于舊金山舉辦的Spark 2014峰會上,Databricks公司CEO Ion Stoica通過主題演講公布了Databricks云——這是一套以Apache Spark開源處理引擎為核心構建而成的云平臺,專門負責大數據處理工作。
Spark項目在一個月之前才剛剛完成了其v1.0版本,這是一套集群計算框架、設計目的在于以Hadoop分布式文件系統(簡稱HDFS)為基礎取代原本的Hadoop MapReduce。借助對內存內集群計算的支持能力,Spark得以在內存機制的輔助下將Hadoop MapReduce的性能表現提升達100倍,而磁盤配合時的性能提升也能達到原先的10倍。
“對于企業用戶來說,將自身在大數據領域所投入的資金充分轉化為實際價值仍然是一項非常困難的任務,”Stoica表示。“這類集群很難設置與管理,而且要從數據中提取出可資利用的實際價值需要配合各種不同類型的工具方案,這無疑使整項工作難上加難。我們Databricks的愿望是能夠顯著簡化大數據處理方式,幫助用戶將精力集中在數據向實際價值的轉化身上。Databricks云能夠將Spark的強大能力與零管理托管平臺結合起來,并提供常見工作流程所必需的初始應用程序集合,這一切將有助于我們把發展愿景變成現實。”
Databricks云還能夠為交互式查詢(通過Spark SQL)、流數據(Spark Streaming)、機器學習(MLlib)以及圖形計算(GraphX)以原生方式提供支持,同時利用單一API跨越全部數據傳輸通道。Stoica表示,這套經過配置的全新Spark集群可謂一大轉折點,用戶只需為集群設定好必要的資源容量、其它工作該平臺都能獨力完成——包括在運行過程中對服務器進行配置、簡化數據導入與緩存機制、在安全性角度對Spark進行補丁安裝與更新。
該平臺還包含三款內置應用程序:
Notebooks。這是一套富界面,用于執行數據發現與瀏覽任務。Notebooks能夠以交互式方式繪制查詢結果、以腳本方式執行整套工作流并實現高級協作功能。
Dashboards。Dashboards允許用戶從之前創建的Notebooks當中選擇任意輸出結果,進而將其創建成儀表板形式并加以管理。Dashboards隨后會將結果輸出到單一頁面中的儀表板內,同時提供WYSIWYG編輯器、從而將內容向更為廣泛的受眾加以提交。
Job Launcher。Job Launcher應用程序允許任何使用者運行任意Apache Spark作業并在執行過程中予以觸發,這能大大簡化創建數據產品的實際流程。
“我們了解到,大多數企業用戶都在抱怨大數據處理并不是單一一項分析工作;真正的執行流程需要將數據存儲、ETL(即提取、轉換與加載)、數據瀏覽、儀表板與報告、高級分析以及數據產品創建等步驟結合起來,”Stoica指出。“利用當前的技術成果完成上述工作可以說相當困難。我們打造的Databricks云正是為此而生,它能夠在設備之上建立起終端到終端通道,同時支持全部強化性以及功能補充性Spark應用程序。它的設計目的在于將原本被大數據處理的超高復雜性嚇退的新用戶們重新回到這塊***價值的分析舞臺上來。”Stoica指出,上述內置應用程序還僅僅是個起點。Databricks云以100%純開源Apache Spark項目為基礎開發而成,這意味著全部現有以及未來將要出現的“經過Spark認證”的應用程序都將能夠運行在這套開箱即用的平臺之上——其中也包括十幾款Databricks于今年二月啟動其應用認證計劃以來獲得肯定的Spark應用程序。
此外,Stoica還談到,大家完全可以反其道行之。任何在Databricks云上開發而成的Spark應用程序也將能夠運行在全部“經過認證的Spark發行版”當中,也就是說用戶不會被鎖定在某種特定托管平臺身上。Databricks于上周正式啟動了其發行版認證計劃,并強調稱目前已經有五家供應商通過了認證過程,它們分別是:Datastax、Hortonworks、IBM、甲骨文以及Pivotal。
“我們衷心期待著能夠將Databricks云打造成一整套豐富多彩的生態系統,”Stoica表示。
Databricks云目前正與幾家用戶配合進行封閉beta測試,并計劃于今年八月開放限定可用beta測試,Stoica解釋稱。他同時補充道,該平臺將采用分層定價模型作為基礎計費機制,根據使用量核算使用成本。初期該平臺將只在Amazon Web Services(簡稱AWS)上與用戶見面,不過Stoica強調未來有計劃將其擴展到其它云供應商的基礎設施當中。
原文鏈接: