應對“算力井噴+全球布局”挑戰,亞馬遜云科技創新不止
原創展望今天的世界,我們看到的是前所未有的挑戰,只有專注創新才能發現更多的增長機會。云服務是支持創新的關鍵生產力,亞馬遜云科技也從未停止過創新。
在近日舉辦的 2023 亞馬遜云科技中國峰會上,亞馬遜云科技大中華區產品部總經理陳曉建表示,現今創新至關重要,而云技術能更快、更高效地幫助企業創新,亞馬遜云科技廣泛和深入的服務可以幫助客戶專注于創新,擺脫基礎架構的束縛?!拔蚁?,這應該是亞馬遜云科技能為您、為您的企業所提供的最大價值所在?!?/span>
算力資源井噴下的創新
生成式 AI 的熱潮,也讓亞馬遜云科技看到越來越多的新機會。陳曉建表示,生成式 AI 是目前最為關注的創新技術,AI 技術的爆發也直接推動了對算力需求的增長。
為此,亞馬遜云科技多方面布局,幫助企業應對各種算力需求。首先,亞馬遜云科技通過自研芯片,提供更高的性價比,同時,亞馬遜云科技也支持不同芯片品牌,包括 Intel、AMD和英偉達,讓用戶可以自由選擇適合自己業務的芯片產品;第二,亞馬遜提供各種豐富的計算實例、網絡、存儲等不同產品的組合,提供高度靈活的組合式方案,通過彈性的資源幫助企業應對突發算力的需求;第三,亞馬遜云科技通過提供 Serverless 相關技術和產品,有效降低運維的復雜性和成本,幫助企業更快更敏捷地應對業務創新需求。
圖片
豐富的自研芯片產品
加速創新的基座:第一款自研芯片 Amazon Nitro
2006 年,亞馬遜云科技發布了第一款 Amazon EC2 計算實例,如今亞馬遜云科技已經有600 多種實例,可以支撐不同硬件、操作系統、計算平臺,滿足用戶的算力需求。2017 年,亞馬遜云科技推出的計算實例的速度逐漸加快,這也是得益于亞馬遜自研的 Amazon Nitro 系統。
陳曉建介紹說,Amazon Nitro 實現了三大改變,第一,作為高度輕量化的虛擬化,徹底改變了對虛擬化基礎設施的設想;第二,實現網絡層面的數據通信和存儲的隔離;第三,實現了硬件級別的加密。有了 Amazon Nitro 之后,Amazon EC2 整個實例應用的安全性極大增強,每個單元可以獨立發展,同時也確保了 Amazon EC2 所有實例運行的穩定,Amazon Nitro 讓亞馬遜云科技能夠加快創新速度、進一步降低客戶成本并提供更多優勢。
如今,最新一代 Amazon Nitro V5 芯片相比之前的芯片性能有了大幅的提升,擁有更快的轉發率,更低的延遲,并且每瓦功耗上節省 40%。
云原生處理器:基于 ARM 架構的通用處理芯片 Amazon Graviton
亞馬遜云科技自研了基于 ARM 架構的通用處理器芯片 Amazon Graviton?;?/span> ARM 架構的通用處理器 Graviton3,相比之前的 Graviton2,計算性能提高多達 25%,浮點性能提高多達 2 倍,加密工作負載性能最多加快 2 倍;而去年新推出的 Graviton 3E 特別關注的是向量計算的性能,與上一代相比提升了 35%,這項性能提升對于高性能計算 HPC 的應用尤為重要。
與 Gravtion3 相比,Gravtion3E 在 HPL(線性代數的測量工具)上 Graviton 性能提升 35%,在 GROMACS(分子運動)上性能提升 12%,在金融期權定價的工作負載上性能提升 30%,和類似 X86的 EC2 實例相比,整個功耗可以降低 60%。
F1 一級方程式賽車,通過使用 Graviton 運行空氣動力學模擬,開發新一代賽車的速度較過去提升了 70%,賽車壓力損失從50% 降低到 15%,為賽車手提供了更高的超車機會。此外,F1 還在探索機器學習在模擬過程中的應用,通過 5000 多次單車和多車模擬收集了超過 5.5 億個數據點,為組織提供了全新洞察。
超大集群超能算力:機器學習訓練芯片 Amazon Trainium
在訓練過程當中最重要的指標往往就是訓練效率和性價比,亞馬遜云科技以 HuggingFace BERT 模型作為案例,基于 Amazon Trainium 的 Trn1 實例和通用的GPU實例相比,在訓練的吞吐率方面,單節點的吞吐率可以提升 1.2 倍,而多節點集群的吞吐率可以提升 1.5 倍,從成本考慮,單節點成本可以降低 1.8 倍,集群的成本更是降低了 2.3 倍。
隨著模型越來越復雜,很多時候靠一個單點的計算訓練是無法滿足用戶需求,因此,用戶需要一個分布式訓練,特別是需要一個非常大規模的集群?;?/span> Amazon Trainium,亞馬遜云科技構建一個 EC2 UltraCluster 超大集群,由 3 萬張的 Amazon Trainium 芯片構成一個超大集群,使用戶可以獲得云上 6 ExaFlops 的訓練超算能力。
陳曉建介紹道,這個背后涉及多方面的創新,一方面是 EFA 創新型網絡,以及 PB 級別的無阻塞網絡互聯。另一方面是由于 Amazon Trainium 本身是低功耗的芯片,使得構建 3 萬張芯片的超大集群也成為可能。
吞吐率與延遲的權衡:機器學習推理芯片 Amazon Inferentia
2019 年,亞馬遜云科技推出了第一代用于機器學習的推理芯片 Amazon Inferentia,所對應的實例Inf1 和同樣基于通用 GPU 的 EC2 實例相比,帶來了 70% 成本的降低,并且獲得了廣泛的應用,包括像 Airbnb,Snap,OPPO 小布語音助手等諸多客戶的青睞。
推理往往需要考慮吞吐率和延遲,用戶肯定希望有更高的吞吐率,從而獲得更優的性價比。但是如果要達到一個更高的吞吐率,可能就會帶來延遲的提升,從而造成用戶體驗的下降,因此,開發者往往要在吞吐率和延遲之間的權衡,Amazon Inferentia 在設計之初就考慮到吞吐率和延遲的優化,使得用戶兩者可以兼得。
2022 年,亞馬遜云科技推出了第二代推理芯片 Amazon Inferentia2,進一步提升了 4 倍吞吐量,延遲只是之前的 1/10。通過優化,第二代 Amazon Inferentia 可以大規模部署復雜的模型,例如大型語言模型(LLM)和 Diffusion 類模型。亞馬遜云科技以自然語言常見的 BERT 模型舉例,Amazon Inferentia2 的吞吐可以提升三倍,延遲降低了 8.1 倍,而成本只是通用 GPU 實例的 1/4。
Amazon Trainium 和 Amazon Inferentia 芯片為訓練模型和運行推理提供了最低的成本。因此,許多領先的生成式 AI 初創公司,例如 AI21 Labs、Hugging Face、Runway 和 Stability AI 都采用了 Amazon Trainium 和 Amazon Inferentia 來作為他們研發和應用的平臺。
積木式彈性計算存儲組合,滿足多種算力需求
生成式 AI 需求非常多樣,用戶需要高性價比的硬件方案,同時也需要高度彈性化的伸縮。亞馬遜云科技提供 600 多種不同的計算實例,從處理器、網絡、存儲各種周邊的服務能夠與計算很好地結合,以積木的方式形成豐富靈活的計算實例資源,滿足多種不同算力的要求。
陳曉建指出,當數據規模達到 PB 級別時,數據存儲方式就變得非常重要。用戶的數據存儲是多種多樣的,通??梢园阉譃闊?、溫、冷、凍四種類型,不同類型的數據存儲成本有很大差別,數據存儲的性能也有很大差別,因此數據的成本和性能之間的平衡非常重要。
圖片
為此,亞馬遜云科技提供了 8 種存儲級別的對象存儲 Amazon S3 方案,無論是高性能計算還是機器學習,抑或是通用計算,用戶都可以根據自己的需求找到最適合自己的存儲級別。此外,亞馬遜云科技也提供了智能分層,如果用戶不清楚應該屬于哪個層級,亞馬遜云科技也會通過應用訪問模式自動幫助用戶選擇一個最適合的存儲層級。
亞馬遜云科技為綜合性視覺效果公司維塔數碼提供了從基礎架構算力資源到云上制作堆棧、機器學習堆棧的一系列服務。維塔數碼使用了包括 GPU 在內的大量計算實例,Spot 實例還為其提供了非常強的伸縮性以及很好的性價比。維塔數碼表示:“《阿凡達 1》花了 14個月看到了第一幀,《阿凡達 2》在八個月內我們在云中擁有了 33 億個線程小時?!?/span>
利用Serverless 降低云的使用門檻
有多種多樣的芯片和高伸縮性的資源供給是不是就夠了呢?用戶還希望能降低云運維的復雜性,亞馬遜云科技為用戶提供了第三種武器 Serverless。
據了解,自從 2014 年發布 Lambda 以來,亞馬遜云科技已經相繼發布了 105 種 Serverless 新技術,包括解決 Java 應用冷啟動的問題的 Amazon Lambda SnapStart,可視化編輯器 Amazon Application Composer 等,用戶可以根據自己的應用類型來靈活選擇不同顆粒度的產品。此外,亞馬遜云科技已經實現了全棧數據服務的 Serverless 化,開啟了Serverless 新時代,讓客戶無需預置或管理基礎設施,就可以運行幾乎任何類型的應用程序,幫助客戶最大限度減輕運維工作,并增加業務敏捷性。
圖片
《MARVEL SNAP》是一款基于漫威 IP 的數字卡牌游戲,由 Second Dinner 來開發。該游戲在去年 10 月推出以來廣受用戶好評,擁有全球超過數百萬的客戶,并且獲得了年度手機游戲大獎。據了解,Second Dinner 全面采用了亞馬遜云科技的 Serverless 架構來開發、構建和運行該游戲。整個游戲沒有使用任何一臺 EC2 計算實例或容器,完全由事件驅動架構實現,這不僅幫助用戶節省了成本,加快了應用開發速度,也減少了安全方面隱患。亞馬遜云科技將整個 Serverless 后臺的架構實現了從功能、安全和資源供給等方面的完整管理,最終 Marvel Snap 在啟動的時候沒有一個后臺錯誤,這在游戲行業是聞所未聞的。
全球業務布局的創新
如今,很多中國企業業務的發展逐漸從國內走到海外,有越來越多的中國企業在全球大展拳腳。陳曉建認為,2023 年是中國企業出海的一個分水嶺,如果說在過去十年很多中國企業的出海是專注于投資和發展,未來十年會有更多的企業專注于打造全球化的跨國公司。打造全球化的企業對于整個 IT 架構提出了更高的要求,企業不光需要覆蓋全球遍地可及的云服務,也需要能夠快速進行部署高可用的服務,當然還需要符合全球各國和各地區合法合規的前提下開展業務。
為此,亞馬遜云科技提供全球無處不在的云服務、快速部署的高效能力,以及符合各國和各地區合法合規的要求,幫助企業加速全球布局,加速業務創新。
提供全球算力,讓創新快速抵達需要的地方
如今,亞馬遜云科技在全球擁有 31 個區域,99 個可用區,已經覆蓋了 245 個國家和地區,但是亞馬遜云科技沒有停止,還在持續拓展全球的基礎設施,在這些可用區背后是亞馬遜云科技所構建的骨干網,這個全球骨干網是有史以來最大規模的專門構建的骨干網之一。
圖片
如果企業有低延遲、本地數據處理的需求,或者由于合法合規要求需要數據保存在自己的數據中心,亞馬遜云科技可以提供多樣的產品,包括 Local Zones、Wavelength、Outposts、IoT、Snow Family 等等,來解決用戶多元化網絡需求。陳曉建指出,“這些產品可以將亞馬遜云科技的基礎架構擴展到幾乎任何數據中心或本地設施,更重要的是他們提供了完全一致的混合體驗?!?/span>
OPPO 手機業務遍布全球,有上百個云上的 VPC 和多個本地資源需要相互連接,每個國家又有不同的合法合規的要求,這增加了全網的組網難度,OPPO 希望全球業務獨立運作、區域合規自治,同時又有統一的管理。在使用亞馬遜云科技的 Cloud WAN 廣域網服務后,OPPO 可通過本地網絡提供商連接到亞馬遜云科技,通過中央控制面板和網絡策略在分鐘就可以建立起一個覆蓋全球的自己的專用網。借助完整的網絡視圖,OPPO 可以直觀地了解整個網絡的運行狀況、安全和性能。
資本交易市場對于網絡的可靠性和網絡的延遲要求是非常高的,因此對于基礎架構有著非常嚴苛的要求。Nasdaq 選用了亞馬遜云科技的 Outposts,在位于新澤西州 Carteret 數據中心部署了業界第一個 Private Amazon Local Zone,通過 Private Amazon Local Zone 就近的部署,Nasdaq 可以最大限度保證整個網絡超低的延遲,為資本市場的擴張提供了有力的保障。
此外,亞馬遜云科技的技術已經可以在太空這樣極端環境下收集和處理數據,并且可以做出實時的決策。隨著近地軌道的發射和成本不斷下降,亞馬遜云科技有更多的機會突破環境限制,在太空進行實驗。Amazon Snowcone 是專門支持邊緣計算工作所設計的邊緣設備,所有的工作負載都會經過多層加密的保護,數據在搜集之后可以本地處理之后上傳到云端進行進一步的處理。Axiom 通過使用亞馬遜云科技的 SnowCone 支持太空的實驗,環繞了地球進行了 240 次旅行。
快速部署穩定系統的能力,讓創新更放心
亞馬遜云科技 CTO Werner Vogels 曾說過,“Everything fails, all the time”。所有的功能模塊都有可能出現故障,亞馬遜云科技也不能完全避免故障的發生,但是通過努力,亞馬遜云科技可以將風險降到最低。
首先,亞馬遜云科技的每個區域都會有多個可用區,任何單一可用區的故障不會影響到其他可用區的業務,最大限度防止服務中斷的發生。
第二,解耦控制面與數據面的做法,更多地依靠數據面來保持服務運行、降低對控制面的依賴,能夠提高整體穩定性。
第三,蜂窩架構則是一種從船舶設計中借鑒的技術。它把系統分割成多個微小的、單一的、相互之間隔離的蜂窩狀單元,能夠在問題出現時降低爆炸半徑,通過爆炸半徑能夠把故障控制在一個單元以內。亞馬遜云科技的大部分服務也都采用同樣的設計,從而能夠降低故障發生時對系統整體的影響。
第四,隨機分片就是對蜂窩架構的進一步優化。它把客戶的訪問隨機分配到不同的單元中,在任何一個單元出問題的時候,由于采用蜂窩的設計方式,單元爆炸半徑是有限的,不會對系統造成大的影響;此外,客戶的請求是通過隨機的方式分配到不同單元,因此單個單元的故障并不會對整個系統造成影響,可以通過其他的單元可以完成。目前,隨機分配的思路在越來越多亞馬遜云科技服務中被證明具有強大的適用性,比如 Amazon Route 53,是典型采用隨機分片的產品。
第五,亞馬遜云科技設置了服務責任模型,通過明確定義亞馬遜云科技與客戶責任區間的方式,保障客戶在應用的任何階段都能享有對所寫代碼和程序的控制權。
第六,運營就緒審查。通過對亞馬遜云科技大量運營案例進行分析,對過往的問題進行復盤,從而在整個部署時能夠避免重現用戶之前所發生的問題。
第七,亞馬遜云科技致力于發展安全的持續部署,可以最大限度減少因錯誤部署而對生產造成的影響。
第八,亞馬遜云科技還有一個 COE 糾錯流程,可以了解問題發生時系統的狀態,以避免類似的錯誤再次發生。
支持全球業務合規,保障業務出海
亞馬遜云科技幾乎滿足全球所有國家和地區的合規性要求,最大程度確保企業的創新業務在全球范圍內安全、合規的。
亞馬遜云科技擁有 50 多項服務符合 CISPE 準則,還有云原生敏感數據保護解決方案,可以幫助用戶更好地發現和管理在亞馬遜云科技上面的敏感數據,從而滿足個人數據保護法的要求。
安全是實現合規的一種方式,亞馬遜云科技也一直在高度致力于建設各種高度安全的云計算環境,亞馬遜云科技擁有超過 300 種安全合規和治理服務,幫助各行各業的客戶能夠更方便地搭建滿足全球各地安全和合規要求的架構。
對于全球布局,亞馬遜云科技提供從中心到邊緣的多種產品的解決方案,包括覆蓋全球的基礎架構,以及快速部署穩定系統的能力,還有全面支持全球各個國家和地區業務合規能力,這些能力都將成為用戶創造堅實底層架構的基石。
亞馬遜云科技一直在創新的路上不斷前行,通過不斷優化和升級其產品和服務,幫助企業更好地實現數字化轉型,推動業務創新。相信在未來,亞馬遜云科技還將繼續發揮自身優勢和技術實力,為全球企業帶來更多驚喜和價值!