Kubernetes上的Spark變得輕松
開放源代碼版本上的數據機制改進
如果您正在尋找關于Kubernetes上的Spark的高級介紹,請簽出在Kubernetes上運行Spark的優缺點,如果您正在尋找更深的技術潛水,那么閱讀我們的指南設置,管理和監控Spark在kubernetes上。
Data Mechanics是一個托管的Spark平臺,部署在客戶的云帳戶內的Kubernetes集群上,可在AWS,GCP和Azure上使用。因此,我們整個公司都建立在Kubernetes上的Spark之上,并且經常被問到與簡單地在Kubernetes開源上運行Spark有何不同。
簡短的答案是,我們的平臺實現了許多功能,這些功能使Kubernetes上的Spark更加易于使用且更具成本效益。通過照顧設置和維護,我們的目標是讓您專注于并加速其采用,并節省大量維護工作。我們的目標是通過使Spark變得應有的簡單,靈活和高性能來加速您的數據工程項目。
讓我們來談談基于Spark-on-Kubernetes的主要改進。
直觀的用戶界面
Data Mechanics用戶將獲得一個儀表板,他們可以在其中查看其每個Spark應用程序的日志和指標。他們還可以訪問Spark UI,該UI很快將被我們自己開發的監視工具Data Datas Delight取代(更新,2020年12月:第一個令人高興的里程碑已經發布!)。該項目的目的是使Spark開發人員在出現故障時能夠輕松對其應用程序進行故障排除,并在必要時為他們提供高級建議,以提高其性能(例如,圍繞數據分區和內存管理)。
> Data Mechanics Delight
他們還可以訪問“作業用戶界面”,該界面提供了管道主要指標的歷史圖表,例如處理的數據量,持續時間和成本。這樣,您的團隊就可以輕松確保生產管道按預期運行,并在必要時跟蹤成本。
> Data Mechanics Jobs UI
動態優化
Data Mechanics平臺自動動態地優化您的管道基礎結構參數和Spark配置,以使其快速,穩定。這是我們需要調整的設置:您的Pod的內存和CPU分配,磁盤設置以及有關并行性,隨機播放和內存管理的Spark配置。我們通過分析應用程序的日志和指標,并使用應用程序過去運行的歷史來找出瓶頸并對其進行優化來實現。
> Data Mechanics’ Auto Tuning Feature
除了自動調整外,我們的平臺還可以在Spark應用程序(動態分配)的級別和Kubernetes集群的級別實現自動擴展。這意味著我們管理Kubernetes節點池,以在需要更多資源時縮放群集,并且當它們不必要時,將其降低到零。我們還可以輕松使用Spark Ojecutors的現貨節點進一步降低云成本。
> Data Mechanics’ Autoscaling Feature
最后但并非最不重要的一點,我們提供了一個Spark映像列表,其中包含針對常見數據源和接收器的優化連接器。您可以直接使用這些映像,也可以將它們用作使用自定義依賴項構建自己的Docker映像的基礎。
這些優化的目標是為您提供Spark應該提供的最高性能,并降低您的云成本。實際上,我們為我們的服務收取的管理費遠遠超過了我們在您的云提供商賬單上節省的費用。我們已幫助從競爭性Spark平臺遷移的客戶將其云計算費用減少了50%至75%。
整合方式
Data Mechanics與筆記本服務(如Jupyter,JupyterLab,JupyterHub)和調度程序/工作流服務(如Airflow)集成在一起。
由于我們的平臺部署在您可以控制的Kubernetes集群上,因此您也可以使用Docker / Kubernetes兼容工具的完整生態系統。而且,由于我們已部署在您的云帳戶,VPC中,因此您還可以輕松地使用公司網絡內的本地工具構建自己的集成。
> Data Mechanics’ Native Integrations With Jupyter, Docker, Kubernetes, Airflow
托管服務讓您高枕無憂
作為托管服務,我們會處理您的基礎架構的設置和維護。注冊數據機械師時,您會在云帳戶上給出客戶的權限,我們使用這些權限創建Kubernetes集群,使其與最新的安全修復程序保持最新,并推送每兩個新功能的發布周。
> The Data Mechanics Platform Architecture
確保您的部署安全也是我們的責任。我們可以在您公司的VPC內進行部署,并將您的集群設為私有,因此只能通過您公司的虛擬專用網對其進行訪問。我們為您提供工具,以通過多個選項來應用安全性最佳實踐,以進行數據訪問和用戶身份驗證(單點登錄)。
結論
我們很自豪能夠在Kubernetes以及其他開源項目的基礎上,有時甚至為它們做出貢獻。我們正在嘗試以公開透明的方式構建您自己構建的數據平臺。通過部署在您的云帳戶和VPC中,您將獲得本地項目的靈活性以及托管平臺的易用性。
我們內部進行的優化并不能完全彌補我們的定價,事實上,我們已經幫助一些客戶從競爭平臺遷移時將總成本降低了50%至75%。
原文鏈接:
https://medium.com/data-mechanics/spark-on-kubernetes-made-easy-how-data-mechanics-improves-on-the-open-source-version-3446e6672240