亞馬遜云科技陳曉建:面向未來云原生數據基礎設施的四大要素
原創總計5萬多客戶和合作伙伴參加線下活動,超過30萬人參與線上會議,亞馬遜云科技第11屆re:Invent峰會落下帷幕。每年的re:Invent全球大會都會發布許多重磅的新服務、功能和應用,來支持遍及全球各地、來自千行百業的客戶進行不斷的創新和重塑。亞馬遜云科技始終致力于通過技術的不斷創新,讓全球包括中國的客戶能凌云馭勢、重塑未來。
近日,亞馬遜云科技正式開啟2022 re:Invent中國巡展活動,展示2022 re:Invent全球大會的最新產品和技術、前沿趨勢以及最佳實踐。
數據爆炸不是未來,而是現實。分析人士預測,未來五年產生的數據量將會是數字時代開始以來的兩倍多。如何管理海量數據,挖掘數據價值,對每個組織來說都是巨大的挑戰。亞馬遜云科技通過提供端到端的全面數據解決方案,幫助客戶打造從數據的攝入,數據存儲與查詢,到數據分析,商業智能,再到人工智能與機器學習創新,并通過安全合規的方式進行集團內或公司之間的共享和輸出。
亞馬遜云科技大中華區產品部總經理陳曉建提到,構建端到端數據戰略的三個核心為:建立面向未來的云原生數據基礎設施;實現高效、跨組織的數據一體化融合;借助教育和工具,使數據普惠化。
其中,一個面向未來的云原生數據基礎設施應該有四個核心要素:面對不同類型的工作負載,提供合適的工具;在大規模運行的情況下仍然保持高性能;通過智能化手段和工具為客戶降低運營復雜性,有效提升工作效率;提供最高級別的可靠性和安全性,來保護數據存儲。
亞馬遜云科技大中華區產品部總經理陳曉建
用合適的數據庫工具應對所有類型的工作負載
在工具方面,亞馬遜云科技擁有最完整的數據庫,包括關系數據庫(如 Amazon Aurora)和 8 個專用數據庫(如Amazon DynamoDB)為應用程序提供數據工作負載支持。同時,亞馬遜云科技為分析工作負載提供最全面的服務,例如使用 Amazon Redshift 的 SQL 分析、使用 Amazon EMR 的大數據分析、使用 Amazon QuickSight 的商業智能以及使用 Amazon OpenSearch 的交互式日志分析。此外,亞馬遜云科技還提供一系列廣泛的功能來支持機器學習工作負載,包括 PyTorch 和 TensorFlow 等深度學習框架、可以更輕松地創建 ML 模型的 Amazon SageMaker 等服務,以及具有內置機器學習功能的 AI 服務,例如Amazon Transcribe 和Amazon Polly。
在本次大會上,亞馬遜云科技宣布推出了適用于 Apache Spark 的 Amazon Athena,讓用戶使用Athena來調用Spark,在短短一秒內即可開始 在Apache Spark運行交互式數據分析任務,用戶無需準備基礎架構配置。同時,客戶還只需為使用的資源付費。
亞馬遜云科技還宣布了針對 Apache Spark 的新 Amazon Redshift 集成預覽,通過這一功能,客戶可以通過Amazon EMR 或者Amazon Glue這樣的Spark引擎來消費Amazon Redshift中的數據。與現有的 Amazon Redshift-Spark連接器相比,這種集成使Spark引擎對Amazon Redshift的數據抽取速度提高了10倍。
除了發布新特性,亞馬遜云科技也在持續優化性能??蛻粼?Amazon EMR、Amazon Glue、Amazon SageMaker、Amazon Redshift 和Amazon Athena 上運行經過優化的Spark runtime,可以獲得比開源版本 Spark 快 3 倍的性能。
在大規模的情況下保持高性能
Amazon Aurora的自動擴展功能可以將每個數據庫實例可自動擴展到最大128TB,而只有其他傳統企業級數據庫大概1/10的 使用成本;DynamoDB在2022年的Amazon Prime Day期間每秒處理超過一億次的請求;上萬個Amazon Redshift用戶每天都會處理超過EB級別的數據總量,它也具備超過其他的云數倉約5倍的更好的性價比,同時,在高并發和低延時的場景下,比如報表和dashboard的應用,Amazon Redshift的性價比是其他方案的7倍。
在這些強大能力的基礎上,本次re:Invent再次發布了多項數據庫新特性,包括:Amazon DocumentDB Elastic Clusters,將Amazon DocumentDB集群彈性擴展到支撐百萬級讀寫每秒和PB級存儲容量的規模;Amazon RDS寫優化,將數據寫入吞吐量最高提升兩倍;Amazon RDS讀優化,將數據查詢性能最高提升50%。
消除繁重的工作
亞馬遜云科技通過自動化和機器學習的內置智能來減少手動任務。Amazon SageMaker支持新的地理空間機器學習功能Geospatial ML,客戶只需單擊幾下即可從Amazon SageMaker訪問不同的數據源上的地理 空間數據。內置可視化工具使您能夠使用 3D加速圖形在交互式地圖上分析數據和探索模型預測。本次大會還發布了Amazon OpenSearch Serveless,補上了分析服務Serverless化的最后一塊拼圖。
可靠性和安全性
本次大會新發布了Amazon RDS藍/綠部署。為客戶開辟一個測試環境進行補丁或者新配置的測試,當測試成功之后快速將測試環境切換為生產環境。這樣的功能極大地節省了數據庫團隊運維中的操作壓力,同時提升運維效率,保證數據零損失。
新發布的Amazon Redshift Multi-AZ多可用區功能,實現了Amazon Redshift的跨可用區容災。這樣的功能與Amazon Redshift本來具備的自動備份和恢復功 能相結合,為客戶的關鍵分析負載加上了雙保險。
連接數據的能力與云原生數據基礎設施一樣重要。亞馬遜云科技提出“零ETL”的未來:無需再次手動構建數據管道。亞馬遜云科技在本次大會上發布了多項全新的集成功能,幫助客戶實現“Zero-ETL”(零ETL)。例如,Amazon Aurora 將首次支持與 Amazon Redshift 的 Zero-ETL(提取、轉換和加載)集成,將事務數據與分析功能結合在一起,消除了在 Aurora 和 Redshift 之間構建和管理自定義數據管道的所有工作。用戶不必構建和維護復雜的數據管道來執行提取、轉換和加載(ETL)操作。又如:亞馬遜云科技打造出 Amazon DataZone,用于分類、發現、共享和管理數據的數據管理服務,可以集成 Redshift、Athena 和 QuickSight,以及對第三方數據源提供 API 接口,可實現細粒度數據管理,其中包含由機器學習填充的數據目錄,易于使用業務術語進行搜索。