成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

粉絲關系鏈,10億數據,如何設計?

開發 開發工具 前端
繼續答星球水友提問,大數據量,高并發量,好友關系鏈、粉絲關系鏈要如何設計?關系鏈主要分為兩類,弱好友關系與強好友關系,兩類都有典型的互聯網產品應用。

繼續答星球水友提問,大數據量,高并發量,好友關系鏈、粉絲關系鏈要如何設計?

什么是關系鏈業務?

關系鏈主要分為兩類,弱好友關系與強好友關系,兩類都有典型的互聯網產品應用。

弱好友關系的建立,不需要雙方彼此同意:

  • 用戶A關注用戶B,不需要用戶B同意,此時用戶A與用戶B為弱好友關系,對A而言,暫且理解為“關注”;
  • 用戶B關注用戶A,也不需要用戶A同意,此時用戶A與用戶B也為弱好友關系,對A而言,暫且理解為“粉絲”;

idol與fans這類微博粉絲關系鏈,是一個典型的弱好友關系應用。

強好友關系的建立,需要好友關系雙方彼此同意:

  • 用戶A請求添加用戶B為好友,用戶B同意,此時用戶A與用戶B則互為強好友關系,即A是B的好友,B也是A的好友;

QQ好友關系鏈,是一個典型的強好友關系應用。

好友中心是一個典型的多對多業務:

  • 一個用戶可以添加多個好友
  • 也可以被多個好友添加

其典型架構為:

  • friend-service:好友中心服務,對調用者提供友好的RPC接口
  • db:對好友數據進行存儲

弱好友關系,存儲層應該如何實現?

通過弱好友關系業務分析,很容易了解到,其核心元數據為:

  1. guanzhu(uid, guanzhu_uid); 
  2. fensi(uid, fensi_uid); 

其中:

  • guanzhu表,用戶記錄uid所有關注用戶guanzhu_uid
  • fensi表,用來記錄uid所有粉絲用戶fensi_uid

需要強調的是,一條弱關系的產生,會產生兩條記錄,一條關注記錄,一條粉絲記錄。 例如:用戶A(uid=1)關注了用戶B(uid=2),A多關注了一個用戶,B多了一個粉絲,于是:

  • guanzhu表要插入{1, 2}這一條記錄,1關注了2
  • fensi表要插入{2, 1}這一條記錄,2粉了1

如何查詢一個用戶關注了誰?回答:在guanzhu的uid上建立索引:

  1. select * from guanzhu where uid=1

即可得到結果,1關注了2。 如何查詢一個用戶粉了誰?回答:在fensi的uid上建立索引:

  1. select * from fensi where uid=2

即可得到結果,2粉了1。

強好友關系,存儲層應該如何實現?

方案一

通過強好友關系業務分析,很容易了解到,其核心元數據為:

  1. friend(uid1, uid2); 

其中:

  • uid1,強好友關系中一方的uid
  • uid2,強好友關系中另一方的uid

uid=1的用戶添加了uid=2的用戶,雙方都同意加彼此為好友,這個強好友關系,在數據庫中應該插入記錄{1, 2}還是記錄{2,1}呢?

回答:都可以。為了避免歧義,可以人為約定,插入記錄時uid1的值必須小于uid2。 例如:有uid=1,2,3三個用戶,他們互為強好友關系,那邊數據庫中可能是這樣的三條記錄

  1. {1, 2} 
  2. {2, 3} 
  3. {1, 3} 

如何查詢一個用戶的好友呢?回答:假設要查詢uid=2的所有好友,只需在uid1和uid2上建立索引,然后:

  1. select * from friend where uid1=2 
  2. union 
  3. select * from friend where uid2=2 

即可得到結果。

方案二

強好友關系是弱好友關系的一個特例,A和B必須互為關注關系(也可以說,同時互為粉絲關系),即也可以使用關注表和粉絲表來實現:

  1. guanzhu(uid, guanzhu_uid); 
  2. fensi(uid, fensi_uid); 

例如:用戶A(uid=1)和用戶B(uid=2)為強好友關系,即相互關注:

用戶A(uid=1)關注了用戶B(uid=2),A多關注了一個用戶,B多了一個粉絲,于是:

  • guanzhu表要插入{1, 2}這一條記錄
  • fensi表要插入{2, 1}這一條記錄

同時,用戶B(uid=2)也關注了用戶A(uid=1),B多關注了一個用戶,A多了一個粉絲,于是:

  • guanzhu表要插入{2, 1}這一條記錄
  • fensi表要插入{1, 2}這一條記錄

兩種實現,各有什么優缺點?

對于強好友關系的兩類實現:

  • friend(uid1, uid2)表
  • 數據冗余guanzhu表與fensi表(后文稱正表T1與反表T2)

在數據量小時,看似無差異,但數據量大時,數據冗余的優勢就體現出來了:

  • friend表,數據量大時,如果使用uid1來分庫,那么uid2上的查詢就需要遍歷多庫
  • 正表T1與反表T2通過數據冗余來實現好友關系,{1,2}{2,1}分別存在于兩表中,故兩個表都使用uid來分庫,均只需要進行一次查詢,就能找到對應的關注與粉絲,而不需要多個庫掃描

畫外音:假如有10億關系鏈,必須水平切分。

數據冗余,是多對多關系,在數據量大時,數據水平切分的常用實踐。

如何進行數據冗余?

接下來的問題轉化為,好友中心服務如何來進行數據冗余,常見有三種方法。

方法一:服務同步冗余

顧名思義,由好友中心服務同步寫冗余數據,如上圖1-4流程:

  • 業務方調用服務,新增數據
  • 服務先插入T1數據
  • 服務再插入T2數據
  • 服務返回業務方新增數據成功

優點:

  • 不復雜,服務層由單次寫,變兩次寫
  • 數據一致性相對較高(因為雙寫成功才返回)

缺點:

  • 請求的處理時間增加(要插入次,時間加倍)
  • 數據仍可能不一致,例如第二步寫入T1完成后服務重啟,則數據不會寫入T2

如果系統對處理時間比較敏感,引出常用的第二種方案。

方法二:服務異步冗余

數據的雙寫并不再由好友中心服務來完成,服務層異步發出一個消息,通過消息總線發送給一個專門的數據復制服務來寫入冗余數據,如上圖1-6流程:

  • 業務方調用服務,新增數據
  • 服務先插入T1數據
  • 服務向消息總線發送一個異步消息(發出即可,不用等返回,通常很快就能完成)
  • 服務返回業務方新增數據成功
  • 消息總線將消息投遞給數據同步中心
  • 數據同步中心插入T2數據

優點:

  • 請求處理時間短(只插入1次)

缺點:

  • 系統的復雜性增加了,多引入了一個組件(消息總線)和一個服務(專用的數據復制服務)
  • 因為返回業務線數據插入成功時,數據還不一定插入到T2中,因此數據有一個不一致時間窗口(這個窗口很短,最終是一致的)
  • 在消息總線丟失消息時,冗余表數據會不一致

如果想解除“數據冗余”對系統的耦合,引出常用的第三種方案。

方法三:線下異步冗余

數據的雙寫不再由好友中心服務來完成,而是由線下的一個服務或者任務來完成,如上圖1-6流程:

  • 業務方調用服務,新增數據
  • 服務先插入T1數據
  • 服務返回業務方新增數據成功
  • 數據會被寫入到數據庫的log中
  • 線下服務或者任務讀取數據庫的log
  • 線下服務或者任務插入T2數據

優點:

  • 數據雙寫與業務完全解耦
  • 請求處理時間短(只插入1次)

缺點:

  • 返回業務線數據插入成功時,數據還不一定插入到T2中,因此數據有一個不一致時間窗口(這個窗口很短,最終是一致的)
  • 數據的一致性依賴于線下服務或者任務的可靠性

上述三種方案各有優缺點,可以結合實際情況選取。 數據冗余固然能夠解決多對多關系的數據庫水平切分問題,但又帶來了新的問題,如何保證正表T1與反表T2的數據一致性呢?

從上面的討論可以看到,不管哪種方案,因為兩步操作不能保證原子性,總有出現數據不一致的可能,高吞吐分布式事務是業內尚未解決的難題,此時的架構優化方向:最終一致性。并不是完全保證數據的實時一致,而是盡早的發現不一致,并修復不一致。 最終一致性,是高吞吐互聯網業務一致性的常用實踐。更具體的,保證數據最終一致性的常見方案有三種。

方法一:線下掃面正反冗余表全部數據

如上圖所示,線下啟動一個離線的掃描工具,不停的比對正表T1和反表T2,如果發現數據不一致,就進行補償修復。

優點:

  • 比較簡單,開發代價小
  • 線上服務無需修改,修復工具與線上服務解耦

缺點:

  • 掃描效率低,會掃描大量的“已經能夠保證一致”的數據
  • 由于掃描的數據量大,掃描一輪的時間比較長,即數據如果不一致,不一致的時間窗口比較長

有沒有只掃描“可能存在不一致可能性”的數據,而不是每次掃描全部數據,以提高效率的優化方法呢?

方法二:線下掃描增量數據

每次只掃描增量的日志數據,就能夠極大提高效率,縮短數據不一致的時間窗口,如上圖1-4流程所示:

  • 寫入正表T1
  • 第一步成功后,寫入日志log1
  • 寫入反表T2
  • 第二步成功后,寫入日志log2

當然,我們還是需要一個離線的掃描工具,不停的比對日志log1和日志log2,如果發現數據不一致,就進行補償修復

優點:

  • 雖比方法一復雜,但仍然是比較簡單的
  • 數據掃描效率高,只掃描增量數據

缺點:

  • 線上服務略有修改(代價不高,多寫了2條日志)
  • 雖然比方法一更實時,但時效性還是不高,不一致窗口取決于掃描的周期

有沒有實時檢測一致性并進行修復的方法呢?

方法三:實時線上“消息對”檢測

這次不是寫日志了,而是向消息總線發送消息,如上圖1-4流程所示:

  • 寫入正表T1
  • 第一步成功后,發送消息msg1
  • 寫入反表T2
  • 第二步成功后,發送消息msg2

這次不是需要一個周期掃描的離線工具了,而是一個實時訂閱消息的服務不停的收消息。假設正常情況下,msg1和msg2的接收時間應該在3s以內,如果檢測服務在收到msg1后沒有收到msg2,就嘗試檢測數據的一致性,不一致時進行補償修復

優點:

  • 效率高
  • 實時性高

缺點:

  • 方案比較復雜,上線引入了消息總線這個組件
  • 線下多了一個訂閱總線的檢測服務

however,技術方案本身就是一個投入產出比的折衷,可以根據業務對一致性的需求程度決定使用哪一種方法。

總結

(1) 關系鏈業務是一個典型的多對多關系,又分為強好友與弱好友

(2) 數據冗余是一個常見的多對多業務數據水平切分實踐

(3) 冗余數據的常見方案有三種

  • 服務同步冗余
  • 服務異步冗余
  • 線下異步冗余

(4) 數據冗余會帶來一致性問題,高吞吐互聯網業務,要想完全保證事務一致性很難,常見的實踐是最終一致性

(5) 最終一致性的常見實踐是,盡快找到不一致,并修復數據,常見方案有三種

  • 線下全量掃描法
  • 線下增量掃描法
  • 線上實時檢測法

希望大家有所啟示,思路比結論重要。

【本文為51CTO專欄作者“58沈劍”原創稿件,轉載請聯系原作者】

戳這里,看該作者更多好文

 

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2023-06-06 14:01:05

關系鏈架構數據庫

2025-02-21 08:20:33

2024-07-04 13:42:12

2019-05-05 09:28:59

架構數據查詢

2019-07-29 14:40:26

架構存儲檢索

2020-07-29 09:54:35

帖子中心數據架構

2024-06-03 06:45:18

2024-02-19 11:49:23

JavaBitMap類型

2025-05-12 01:55:00

MySQL存儲數據

2024-03-06 09:22:23

C#數據庫判重

2015-07-30 13:49:32

Windows 10粉絲

2019-03-05 10:16:54

數據分區表SQLserver

2020-06-16 14:02:51

數據BitMap代碼

2021-02-05 10:58:28

數據存儲架構

2025-01-23 00:00:00

JMMJava

2012-11-23 09:32:20

新浪微博微信

2022-09-25 22:09:09

大數據量技術HDFS客戶端

2015-08-03 09:19:23

2024-06-06 16:50:15

2012-02-08 11:11:45

Facebook數據中心
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品久久久久 | 色婷婷精品国产一区二区三区 | 久久久婷| 一级毛片,一级毛片 | 蜜月aⅴ国产精品 | 精品一区二区三区日本 | 精品亚洲一区二区 | 国产在线观看一区 | 日韩在线免费观看视频 | 99在线免费视频 | 中文字幕亚洲一区 | 91精品午夜窝窝看片 | 欧美日韩一区二区在线观看 | 久草热8精品视频在线观看 午夜伦4480yy私人影院 | 99精品国产一区二区青青牛奶 | 午夜精品一区二区三区在线 | 午夜视频免费在线观看 | 国产精品夜色一区二区三区 | 国产日韩欧美在线 | 精品乱子伦一区二区三区 | 九九九视频在线观看 | 国产特级毛片aaaaaa喷潮 | 中文字幕不卡在线观看 | 91免费在线看 | 我要看一级片 | 香蕉大人久久国产成人av | www.日韩在线 | 99久久精品国产一区二区三区 | 久久综合一区二区三区 | 久久国产精品精品 | 亚洲视频免费在线观看 | 国产高清一区二区三区 | 亚洲免费视频一区 | 日韩综合| 很黄很污的网站 | 午夜视频免费 | 超碰男人天堂 | 中文字幕在线三区 | 91精品久久久久久久久 | 一区二区免费 | 久久精品这里精品 |