雙11超級工程—阿里巴巴數據庫技術架構演進
每年電商雙11大促對阿里技術人都是一次大考,對阿里數據庫團隊更是如此。經過9年的發展,雙11單日交易額從2009年的0.5億一路攀升到2017年的1682億,秒級交易創建峰值達到了32.5萬筆/秒。支撐這一切業務指標的背后,是底層技術體系的一次次迭代升級。
阿里巴巴數據庫系統經歷了10多年的發展,今年正式確定從 第三代大規模分庫分表 向 第四代X-DB分布式數據庫系統 演進的目標。X-DB分布式數據庫的落地已經在2017年雙11大促中獲得了可行性驗證,同時底層開始引入存儲計算分離架構。分布式在系統穩定性、容災能力、容量擴展性、技術體系內聚性上有了質的提升,今年雙11開啟了阿里數據庫技術架構新的篇章。
本文以阿里電商交易鏈路中的核心系統庫存中心為例,一窺阿里集團數據數據庫的發展歷程。庫存中心數據庫集群(簡稱庫存DB集群),從2012年獨立拆分后,其發展可以概括為以下3個階段:
- 2012~2013年:分庫分表水平拆分,構建大規模數據庫集群
- 2014~2016年:單元化異地多活架構,數據多單元間同步
- 2017年:X-DB 1.0分布式集群部署上線,新的起點
作為阿里數據庫體系中的核心系統,庫存DB集群的發展歷程可以作為縮影,代表了阿里巴巴數據庫體系的演進。
誕生
庫存DB集群誕生于2012年,是業務垂直拆分的產物。庫存最早是商品中心數據庫的一個字段,隨著淘寶業務的復雜化,單一字段已經滿足不了基于后端倉儲的庫存管理體系,所以便有了垂直拆分出來的庫存DB集群。
水平拆分
2012~2017年,雙11交易額一步步的刷新紀錄,庫存DB集群的QPS/TPS也實現了幾十倍的增長。水平拆分的基本思路是把數據庫擴展到多個物理節點上,讓每個節點處理不同的讀寫請求,從而緩解單一數據庫的性能問題。借助于數據庫團隊的DTS(Data Transmission Service)產品,庫存中心進行了大規模的水平拆分,分庫和分表數量擴展到最初的幾百倍,平穩的支撐了這一個階段業務的快速發展。與此同時,在熱點商品扣減、防超賣數據強一致需求、跨城異地容災數據質量問題、業務數據量急劇膨脹、超大規模數據庫集群運維等問題點上,迫切需要新一代架構來解決。
異地多活單元化
2014~2015年,為了進一步提升用戶的購物體驗,庫存DB集群與主站交易鏈路一同做了單元化部署。單元化很大程度上解決了買家的使用體驗問題,在本單元內封閉完成讀寫操作。但是對于賣家維度的數據,比如編輯商品、扣減庫存,就會涉及到跨單元中心去寫。關于單元化架構,之前已經有了很多介紹。
有了多個單元,對于底層數據庫來說,面臨的***挑戰就是數據同步,因為對于單元封閉的買家維度的數據,需要把單元的數據全部同步到中心;對于讀寫分離類型的業務,我們要把中心的數據同步到單元。這條數據通道就是依靠DRC(Data Replication Center)來完成。如今,DRC不僅成為集團單元化鏈路的基礎設施,對應的云產品DTS已經從2016年開始讓阿里云用戶、聚石塔商家低成本的搭建異地容災。單元化架構給庫存DB集群帶來的***挑戰是多單元間的數據強一致問題,我們也為此做了很大的努力。
X-DB分布式集群
2017年雙11,庫存DB集群***次使用X-DB 1.0分布式集群部署,平穩的支持了32.5萬筆/秒的交易創建峰值。X-DB是阿里巴巴自研高性能分布式可全球化部署數據庫,其核心技術目標概括為以下6點:
- 100%兼容MySQL生態,應用無縫遷移
- 跨AZ、Region的全球化部署能力,5個9以上的可用率
- 自動化的數據Sharding,計算、存儲均可水平擴展
- 高性能的事務處理,相同硬件下達到MySQL 10倍的事務處理能力,百萬TPS
- 自動化的數據冷熱分離,存儲成本為MySQL的1/10
- 計算存儲分離,存儲按需擴展
庫存DB集群雙十一部署架構:
正是由于X-DB提供了全面兼容MySQL、高性能、低成本、跨城容災、數據強一致的能力。在2017年年初,數據庫團隊和業務研發團隊確定了在庫存中心部署X-DB 1.0的目標,解決業務目前面臨的痛點:
- 全面兼容MySQL,實現業務系統平滑遷入
- ***性能,雙11單實例熱點扣減峰值TPS是去年的3倍
- 低成本,相比于傳統的單元化主備架構部署,減少2個數據副本以及單元間數據同步資源成本
- 跨城容災,借助Batching和Pipelining技術實現跨城強同步場景吞吐量幾乎無衰減
- 數據強一致,借助Paxos協議提供多單元間數據強一致能力;批量關閉中心集群全部實例,集群30秒內完成單元選主切換,數據零丟失
- 計算存儲分離,徹底解決傳統機型計算資源和存儲資源固定配比問題,搭配容器化技術,大促峰值期間將數據庫彈性部署運行在離線任務主機,落地零擴容成本支持雙十一大促
X-DB***亮相在2017年雙11的舞臺,平穩支撐零點峰值32.5萬筆/秒,開啟了阿里數據庫體系從分庫分表時代向分布式集群時代的大門。技術之路永無止境,我們今天的技術現狀離業務對我們的要求還有很大的差距。但是千里之行,始于足下,借用《魔戒》里的經典臺詞:“There’s some good in this world, Mr. Frodo. And it’s worth fighting for.”
作者:諶文濤,花名俞月,2014年加入阿里巴巴數據庫團隊,目前負責X-DB 1.0架構在集團環境的落地。