阿里云到底怎么了?
2023年11月12日,晚6點又發生重大故障了,早在2022年12月18日,阿里云香港Region可用區C發生大規模服務中斷事件,對很多客戶業務產生重大影響,影響面擴大到香港可用區C的EBS、、OSS、、RDS等更多云服務。
這次影響更大,在這一個多小時里 ,餓了么都下不了單,騎手進不了系統,點不了外賣、停車場不抬桿、超市無法結賬 !
受影響產品包括:機器學習、圖像搜索、智能推薦AlRec、智能開放搜索OpenSearch、云行情、數據總線DataHub、檢索分析服務Elasticsearch版、企業級分布式應用服務、 消息隊列MQ、微服務引擎、鏈路追蹤、應用高可用服務、應用實時監控服務、Prometheus監控服務、消息服務、消息隊列Kafka版;
圖計算服務Graph Compute、實時計算Flink版、智能數據建設與治理Dataphin、開源大數據平臺E-MapReduce、云原生大數據計算服務MaxCompute、實時數倉Hologres.大數據開發治理平臺DataWorks、智能媒體服務、媒體處理、視頻點播、對象存儲、文件存儲NAS、表格存儲、日志服務、云存儲網關、API 網關、數據傳輸、數據庫自治服務、數據庫備份、物聯網平臺、NAT網關、負載均衡、云解析PrivateZone、彈性公網IP、共享帶寬、轉發路由器、私網連接、高速通道、IPv6網關、專有網絡VPC、云企業網、VPN網關、FPGA云服務器;
超級計算集群、批量計算、無影云桌面、文件存儲HDFS版、塊存儲、混合云備份服務、密鑰管理服務、云防火墻、數據庫審計、加密服 務、運維安全中心(堡壘機)、 容器鏡像服務、容器服務Ku bernetes版、彈性伸縮、彈性容器實例、彈性裸金屬服務器、資源編排;
云原生數據倉庫Analyti cDB PostgreSQL版、圖數據庫、云原生內存數據庫Tair、云 數據庫Redis 版、云原生關系型數據庫PolarDB、云數據庫專屬集群、云數據庫MySQL版、云原生數據倉庫AnalyticD B MySQL版、云原生分布式數據庫PolarDB-X、云數據庫 ClickHouse、云原生多模數據庫L indorm、云數據庫Postgr eSQL版、云數據庫SQL Server 版、云數據庫MongoDB版、云數據庫HBase版;
云服務器EC S、輕量應用服務器、函數計算、Serverless 應用引擎、云托付、專有宿主機、GPU云服務器、彈性高性能計算、操作審計、服務器遷移中心、運維編排、智能計算靈駿、云呼叫中心、交通云控平臺、客服工作臺、視覺智能開放平臺、智能外呼機器人、智能語音交互、智能對話機器人、智能用戶增長、運維事件中心、新零售智能助理。
影響服務之多,涉及范圍之大,已經刷新阿里云史上最大事故!阿里系的產品影響面這么廣,其他互聯網大小廠不知道都遭受什么大影響。
在阿里云最近的大規模服務中斷事件中,我們見證了技術不穩定性的直接后果。從餓了么無法下單到超市結賬系統癱瘓,影響之廣泛令人震驚。這不僅是技術故障的問題,更是阿里云管理策略和技術投入的問題。長期以來,人員流動和技術疏忽導致了系統的脆弱性,這次事故是必然的結果。
難以置信的是,阿里云作為技術巨頭,其技術水平如今竟然飽受質疑。不僅如此,此次故障也暴露了許多互聯網公司在研發資源上的短視和節約。他們忽視了一個基本事實:在技術穩定性面前,任何節約都是短視的。只有投入足夠的資源和精力,才能確保系統的穩定和可靠。
作為行業的一部分,我們必須吸取這次事件的教訓。我們需要重視技術研發,保持團隊的穩定,不斷追求技術革新。只有這樣,我們才能避免未來出現類似的災難,確保我們的服務穩定可靠,滿足用戶的需求。這不僅是對我們自身的要求,更是對社會的責任。