訂單中心，1億數據架構，這次服了

作者：58沈劍 2020-09-02 07:32:19

開發開發工具架構

隨著數據量的逐步增大，并發量的逐步增大，訂單中心這種“多key”業務，架構應該如何設計，有哪些因素需要考慮，是本文將要系統性討論的問題。

訂單中心，是互聯網業務中，一個典型的“多key”業務，即：用戶ID，商家ID，訂單ID等多個key上都有業務查詢需求。

隨著數據量的逐步增大，并發量的逐步增大，訂單中心這種“多key”業務，架構應該如何設計，有哪些因素需要考慮，是本文將要系統性討論的問題。

[[340317]]

什么是“多key”類業務?

所謂的“多key”，是指一條元數據中，有多個屬性上存在前臺在線查詢需求。

訂單中心是什么業務，有什么典型業務需求?

訂單中心是一個非常常見的“多key”業務，主要提供訂單的查詢與修改的服務，其核心元數據為：

Order(oid, buyer_uid, seller_uid, time, money, detail…);

其中：

oid為訂單ID，主鍵;
buyer_uid為買家uid;
seller_uid為賣家uid;
time, money, detail, …等為訂單屬性;

數據庫設計上，一般來說在業務初期，單庫，配合查詢字段上的索引，就能滿足元數據存儲與查詢需求。

order-center：訂單中心服務，對調用者提供友好的RPC接口;
order-db：對訂單進行數據存儲，并在訂單，買家，賣家等字段建立索引;

隨著訂單量的越來越大，數據庫需要進行水平切分，由于存在多個key上的查詢需求，用哪個字段進行切分呢?

如果用oid來切分，buyer_uid和seller_uid上的查詢則需要遍歷多庫;
如果用buyer_uid或seller_uid來切分，其他屬性上的查詢則需要遍歷多庫;

總之，很難有一個萬全之策，在展開技術方案之前，先一起梳理梳理查詢需求。

任何脫離業務需求的架構設計，都是耍流氓。

訂單中心，典型業務查詢需求有哪些?

第一類，前臺訪問，最典型的有三類需求：

訂單實體查詢：通過oid查詢訂單實體，90%流量屬于這類需求;
用戶訂單列表查詢：通過buyer_uid分頁查詢用戶歷史訂單列表，9%流量屬于這類需求;
商家訂單列表查詢：通過seller_uid分頁查詢商家歷史訂單列表，1%流量屬于這類需求;

前臺訪問的特點是什么呢?

吞吐量大，服務要求高可用，用戶對訂單的訪問一致性要求高，商家對訂單的訪問一致性要求相對較低，可以接受一定時間的延時。

第二類，后臺訪問，根據產品、運營需求，訪問模式各異：

按照時間，價格，商品，詳情來進行查詢;

后臺訪問的特點是什么呢?

運營側的查詢基本上是批量分頁的查詢，由于是內部系統，訪問量很低，對可用性的要求不高，對一致性的要求也沒這么嚴格，允許秒級甚至十秒級別的查詢延時。

這兩類不同的業務需求，應該使用什么樣的架構方案來解決呢?

要點一：前臺與后臺分離的架構設計。

如果前臺業務和后臺業務共用一批服務和一個數據庫，有可能導致，由于后臺的“少數幾個請求”的“批量查詢”的“低效”訪問，導致數據庫的cpu偶爾瞬時100%，影響前臺正常用戶的訪問(例如，訂單查詢超時)。

前臺與后臺訪問的查詢需求不同，對系統的要求也不一樣，故應該兩者解耦，實施“前臺與后臺分離”的架構設計。

前臺業務架構不變，站點訪問，服務分層，數據庫水平切分。

后臺業務需求則抽取獨立的web/service/db來支持，解除系統之間的耦合，對于“業務復雜”“并發量低”“無需高可用”“能接受一定延時”的后臺業務：

可以去掉service層，在運營后臺web層通過dao直接訪問數據層;
可以不需要反向代理，不需要集群冗余;
可以通過MQ或者線下異步同步數據，犧牲一些數據的實時性;
可以使用更契合大量數據允許接受更高延時的“索引外置”或者“HIVE”的設計方案;

解決完了后臺業務的訪問需求，那前臺的oid，buyer_uid，seller_uid如何來進行數據庫水平切分呢?

要點二：多個維度的查詢較為復雜，對于復雜系統設計，應該逐個擊破。

假設沒有seller_uid，應該如何擊破oid和buyer_uid的查詢需求?訂單中心，假設只有oid和buyer_uid上的查詢需求，就蛻化為一個“1對多”的業務場景，對于“1對多”的業務，水平切分應該使用“基因法”。

要點三：基因法，是解決“1對多”業務，數據庫水平切分的常見方案。

什么是分庫基因?

通過buyer_uid分庫，假設分為16個庫，采用buyer_uid%16的方式來進行數據庫路由，所謂的模16，其本質是buyer_uid的最后4個bit決定這行數據落在哪個庫上，這4個bit，就是分庫基因。

什么是基因法分庫?

在訂單數據oid生成時，oid末端加入分庫基因，讓同一個buyer_uid下的所有訂單都含有相同基因，落在同一個分庫上。

如上圖所示，buyer_uid=666的用戶下了一個訂單：

使用buyer_uid%16分庫，決定這行數據要插入到哪個庫中;
分庫基因是buyer_uid的最后4個bit，即1010;
在生成訂單標識oid時，先使用一種分布式ID生成算法生成前60bit(上圖中綠色部分);
將分庫基因加入到oid的最后4個bit(上圖中粉色部分)，拼裝成最終64bit的訂單oid(上圖中藍色部分);

通過這種方法保證，同一個用戶下的所有訂單oid，都落在同一個庫上，oid的最后4個bit都相同，于是：

通過buyer_uid%16能夠定位到庫;
通過oid%16也能定位到庫;

假設沒有oid，應該如何擊破buyer_uid和seller_uid的查詢需求?訂單中心，假設只有buyer_uid和seller_uid上的查詢需求，就蛻化為一個“多對多”的業務場景，對于“多對多”的業務，水平切分應該使用“數據冗余法”。

如上圖所示：

當有訂單生成時，通過buyer_uid分庫，oid中融入分庫基因，寫入DB-buyer庫;
通過線下異步的方式，通過binlog+canal，將數據冗余到DB-seller庫中;
buyer庫通過buyer_uid分庫，seller庫通過seller_uid分庫，前者滿足oid和buyer_uid的查詢需求，后者滿足seller_uid的查詢需求;

數據冗余的方法有很多種：

服務同步雙寫;
服務異步雙寫;
線下異步雙寫(上圖所示，是線下異步雙寫);

要點四：數據冗余，是解決“多對多”業務，數據庫水平切分的常見方案。

不管哪種方案，因為兩步操作不能保證原子性，總有出現數據不一致的可能，高吞吐分布式事務是業內尚未解決的難題，此時的架構方向，是最終一致性，并不是完全保證數據的一致，而是盡早的發現不一致，并修復不一致。

要點五：最終一致性，是高吞吐互聯網業務一致性的常用實踐。

保證冗余數據最終一致的常見方案有三種：

冗余數據全量定時掃描;
冗余數據增量日志掃描;
冗余數據線上消息實時檢測;

那如果oid/buyer_uid/seller_uid同時存在呢?

綜合上面的解決方案即可：

如果沒有seller_uid，“多key”業務會蛻化為“1對多”業務，此時應該使用“基因法”分庫：使用buyer_uid分庫，在oid中加入分庫基因;
如果沒有oid，“多key”業務會蛻化為“多對多”業務，此時應該使用“數據冗余法”分庫：使用buyer_uid和seller_uid來分別分庫，冗余數據，滿足不同屬性上的查詢需求;
如果oid/buyer_uid/seller_uid同時存在，可以使用上述兩種方案的綜合方案，來解決“多key”業務的數據庫水平切分難題;

要點總結

前后臺差異化需求，可使用前臺與后臺分離的架構設計;
對于復雜系統設計，應該逐個擊破;
基因法，是解決“1對多”業務，數據庫水平切分的常見方案;
數據冗余，是解決“多對多”業務，數據庫水平切分的常見方案;
最終一致性，是高吞吐互聯網業務一致性的常用實踐。

【本文為51CTO專欄作者“58沈劍”原創稿件，轉載請聯系原作者】

戳這里，看該作者更多好文

責任編輯：趙寧寧來源： 51CTO專欄

數據架構訂單中心架構

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

訂單中心，1億數據架構，這次服了