Amazon EMR簡介
Amazon EMR 提供的托管 Hadoop 框架可以讓您快速輕松、經濟高效地在多個動態可擴展的 Amazon EC2 實例之間處理大量數據。您還可以運行其他常用的分布式框架 (例如 Amazon EMR 中的 Apache Spark、HBase、Presto 和 Flink),以及與其他 AWS 數據存儲服務 (例如 Amazon S3 和 Amazon DynamoDB) 中的數據進行交互。
Amazon EMR 能夠安全可靠地處理廣泛的大數據使用案例,包括日志分析、Web 索引、數據轉換 (ETL)、機器學習、財務分析、科學模擬和生物信息。
借助 Amazon EMR 上受版本控制的發布策略,您可以在 EMR 集群中輕松選擇和使用***的開源項目,包括 Apache Hadoop 和 Spark 生態系統中的應用程序。軟件由 Amazon EMR 進行安裝和配置,使您能夠投入更多時間來提高數據價值,而不用操心基礎設施和管理任務。
優點
1、易于使用
只需幾分鐘即可啟動 Amazon EMR 集群。您不必擔心節點預置、集群設置、Hadoop 配置或集群優化。Amazon EMR 自會處理這些任務,因此您只需集中精力進行分析即可。
2、成本低廉
Amazon EMR 定價原理簡單且可預測:您按使用的每秒支付每秒費率,以一分鐘起算。您可以按低至每小時 0.15 USD 的價格啟動 10 節點 Hadoop 集群。因為 Amazon EMR 在設計理念上支持 Amazon EC2 競價和預留實例,您還可以將基礎實例成本節省 50-80%。
3、靈活
使用 Amazon EMR,您可以預置一個、數百個或者甚至數千個計算實例來處理任何規模的數據。您可以手動或使用 Auto Scaling 輕松增加或減少實例的數量,并且按實際用量付費。
4、運行可靠
您用于調試和監控集群的時間將更少。Amazon EMR 已經針對云優化了 Hadoop,它還會監控您的集群,重新嘗試失敗的任務,并自動替換性能不佳的實例。
5、安全
Amazon EMR 會自動配置 Amazon EC2 防火墻設置以控制對實例的網絡訪問,并且您可以在 Amazon Virtual Private Cloud (VPC) (由您定義的邏輯隔離的網絡) 中啟動集群。對于 Amazon S3 中儲存的對象,您可以通過 AWS Key Management Service 或客戶管理的密鑰來使用 Amazon S3 服務器端加密或采用 EMRFS 的 Amazon S3 客戶端加密。您還可以輕松啟用其他加密選項和 Kerberos 身份驗證。
6、靈活
您可以完全掌控您的集群。您擁有每個實例的根訪問權限,因此,您可以輕松安裝額外的應用程序,并使用引導操作自定義每個集群。此外,您還可以使用自定義 Amazon Linux AMI 啟動 Amazon EMR 集群。
您可以使用Amazon EMR構建什么內容?
1、點擊流分析
Amazon EMR 可用于分析點擊流數據,以便細分用戶、了解各種用戶偏好,并投放更有效的廣告。
2、實時分析
借助 Amazon EMR 上的 Spark Streaming,使用和處理來自 Amazon Kinesis、Apache Kafka 或其他數據流的實時數據。采用容錯方式執行流分析,并將相應結果寫入 Amazon S3 或 HDFS 中。
3、日志分析
Amazon EMR 可用于處理 Web 和移動應用程序生成的各種日志。Amazon EMR 可幫助客戶將數 PB 的非結構化或者半結構化數據轉變為有用的應用程序或者用戶洞察數據。
4、提取、轉換、加載 (ETL)
Amazon EMR 可用于在大型數據集上快速且經濟高效地執行數據轉換工作負載 (ETL),例如分類、聚合和合并。
5、預測分析
Amazon EMR 上的 Apache Spark 包括適用于各種可擴展的機器學習算法的 MLlib,您也可以使用自己的庫。通過將數據集存儲在內存中,Spark 可以為常見的機器學習工作負載提供出色的性能。
6、基因組學
Amazon EMR 可迅速高效地處理大量的基因組數據及其他大型科學數據集。研究人員可以訪問 AWS 上托管的免費基因組數據。