如何做到“恰好一次”地傳遞數(shù)十億條消息

作者：佚名 2017-07-07 11:28:24

在分布式領(lǐng)域中存在著三種類型的消息投遞語義，分別是：最多一次(at-most-once)、至少一次(at-least-once)和恰好一次(exactly-once)。本文作者介紹了一個利用Kafka和RocksDB來構(gòu)建的“恰好一次”消息去重系統(tǒng)的實現(xiàn)原理。

對任何一個數(shù)據(jù)流水線的唯一要求就是不能丟失數(shù)據(jù)。數(shù)據(jù)通常可以被延遲或重新排序，但不能丟失。

為了滿足這一要求，大多數(shù)的分布式系統(tǒng)都能夠保證“至少一次”的投遞消息技術(shù)。實現(xiàn)“至少一次”的投遞技術(shù)通常就是：“重試、重試、再重試”。在你收到消費者的確認消息之前，你永遠不要認為消息已經(jīng)投遞過去。

但“至少一次”的投遞并不是用戶想要的。用戶希望消息被投遞一次，并且僅有一次。

然而，實現(xiàn)“恰好一次”的投遞需要***的設(shè)計。每種投遞失敗的情況都必須認真考慮，并設(shè)計到架構(gòu)中去，因此它不能在事后“掛到”現(xiàn)有的實現(xiàn)上去。即使這樣，“只有一次”的投遞消息幾乎是不可能的。

在過去的三個月里，我們構(gòu)建了一個全新的去重系統(tǒng)，以便在面對各種故障時能讓系統(tǒng)盡可能實現(xiàn)“恰好一次”的投遞。

新系統(tǒng)能夠跟蹤舊系統(tǒng)100倍的消息數(shù)量，并且可靠性也得到了提高，而付出的代價卻只有一點點。下面我們就開始介紹這個新系統(tǒng)。

問題所在

Segment內(nèi)部的大部分系統(tǒng)都是通過重試、消息重新投遞、鎖定和兩階段提交來優(yōu)雅地處理故障。但是，有一個特例，那就是將數(shù)據(jù)直接發(fā)送到公共API的客戶端程序。

客戶端(特別是移動客戶端)經(jīng)常會發(fā)生網(wǎng)絡(luò)問題，有時候發(fā)送了數(shù)據(jù)，卻沒有收到API的響應(yīng)。

想象一下，某天你乘坐公共汽車，在iPhone上使用HotelTonight軟件預(yù)訂房間。該應(yīng)用程序?qū)?shù)據(jù)上傳到了Segment的服務(wù)器上，但汽車突然進入了隧道并失去了網(wǎng)絡(luò)連接。你發(fā)送的某些數(shù)據(jù)在服務(wù)器上已經(jīng)被處理，但客戶端卻無法收到服務(wù)器的響應(yīng)消息。

在這種情況下，即使服務(wù)器在技術(shù)上已經(jīng)收到了這些確切的消息，但客戶端也會進行重試并將相同的消息重新發(fā)送給Segment的API。

從我們服務(wù)器的統(tǒng)計數(shù)據(jù)來看，在四個星期的窗口時間內(nèi)，大約有0.6%的消息似乎是我們已經(jīng)收到過的重復(fù)消息。

這個錯誤率聽起來可能并不是很高。但是，對于一個能創(chuàng)造數(shù)十億美元效益的電子商務(wù)應(yīng)用程序來說，0.6%的出入可能意味著盈利和數(shù)百萬美元損失之間的差別。

對消息進行去重

現(xiàn)在，我們認識到問題的癥結(jié)了，我們必須刪除發(fā)送到API的重復(fù)消息。但是，該怎么做呢?

最簡單的思路就是使用針對任何類型的去重系統(tǒng)的高級API。在Python中，我們可以將其表示為：

def dedupe(stream): 
 
  for message in stream: 
 
    if has_seen(message.id):  
 
      discard(message) 
 
    else: 
 
      publish_and_commit(message)

對于數(shù)據(jù)流中的每個消息，首先要把他的id(假設(shè)是唯一的)作為主鍵，檢查是否曾經(jīng)見過這個特定的消息。如果以前見過這個消息，則丟棄它。如果沒有，則是新的，我們應(yīng)重新發(fā)布這個消息并以原子的方式提交消息。

為了避免存儲所有的消息，我們會設(shè)置“去重窗口”這個參數(shù)，這個參數(shù)定義了在消息過期之前key存儲的時長。只要消息落在窗口時間之外，我們就認為它已過期失效。我們要保證在窗口時間內(nèi)某個給定ID的消息只發(fā)送一次。

這個行為很容易描述，但有兩個方面需要特別注意：讀/寫性能和正確性。

我們希望系統(tǒng)能夠低延遲和低成本的對通過流水線的數(shù)十億個事件進行去重。更重要的是，我們要確保所有的事件都能夠被持久化，以便可以從崩潰中恢復(fù)出來，并且不會輸出重復(fù)的消息。

架構(gòu)

為了實現(xiàn)這一點，我們創(chuàng)建了一個“兩階段”架構(gòu)，它讀入Kafka的數(shù)據(jù)，并且在四個星期的時間窗口內(nèi)對接收到的所有事件進行去重。

去重系統(tǒng)的高級架構(gòu)圖

Kafka的拓撲結(jié)構(gòu)

要了解其工作原理，首先看一下Kafka的流拓撲結(jié)構(gòu)。所有傳入消息的API調(diào)用都將作為單獨的消息進行分離，并讀入到Kafka輸入主題(input topic)中。

首先，每個傳入的消息都有一個由客戶端生成的具有唯一性的messageId標記。在大多數(shù)情況下，這是一個UUIDv4(我們考慮切換到ksuids)。如果客戶端不提供messageId，我們會在API層自動分配一個。

我們不使用矢量時鐘或序列號，因為我們希望能降低客戶端的復(fù)雜性。使用UUID可以讓任何人輕松地將數(shù)據(jù)發(fā)送到我們的API上來，因為幾乎所有的主要語言都支持它。

{ 
 
  "messageId": "ajs-65707fcf61352427e8f1666f0e7f6090", 
 
  "anonymousId": "e7bd0e18-57e9-4ef4-928a-4ccc0b189d18", 
 
  "timestamp": "2017-06-26T14:38:23.264Z", 
 
  "type": "page" 
 
}

為了能夠?qū)⑾⒊志没⒛軌蛑匦掳l(fā)送，一個個的消息被保存到Kafka中。消息以messageId進行分區(qū)，這樣就可以保證具有相同messageId的消息能夠始終由同一個消費者處理。

這對于數(shù)據(jù)處理來說是一件很重要的事情。我們可以通過路由到正確的分區(qū)來查找鍵值，而不是在整個中央數(shù)據(jù)庫的數(shù)百億條消息中查找，這種方法極大地縮小了查找范圍。

去重“worker”(worker：工人。譯者注，這里表示的是某個進程。為防止引起歧義，下文將直接使用worker)是一個Go程序，它的功能是從Kafka輸入分區(qū)中讀入數(shù)據(jù)，檢查消息是否有重復(fù)，如果是新的消息，則發(fā)送到Kafka輸出主題中。

根據(jù)我們的經(jīng)驗，worker和Kafka拓撲結(jié)構(gòu)都非常容易掌握。我們無需使用一組遇到故障時需要切換到副本的龐大的Memcached實例。相反，我們只需使用零協(xié)同的嵌入式RocksDB數(shù)據(jù)庫，并以非常低的成本來獲得持久化存儲。

RocksDB的worker進程

每一個worker都會在本地EBS硬盤上存放了一個RocksDB數(shù)據(jù)庫。RocksDB是由Facebook開發(fā)的嵌入式鍵值存儲系統(tǒng)，它的性能非常高。

每當從輸入主題中過來的消息被消費時，消費者通過查詢RocksDB來確定我們之前是否見過該事件的messageId。

如果RocksDB中不存在該消息，我們就將其添加到RocksDB中，然后將消息發(fā)布到Kafka輸出主題。

如果消息已存在于RocksDB，則worker不會將其發(fā)布到輸出主題，而是更新輸入分區(qū)的偏移，確認已處理過該消息。

性能

為了讓我們的數(shù)據(jù)庫獲得高性能，我們必須對過來的每個事件滿足三種查詢模式：

檢測隨機key的存在性，這可能不存在于我們的數(shù)據(jù)庫中，但會在key空間中的任何地方找到。
高速寫入新的key
老化那些超出了“去重窗口”的舊的key

實際上，我們必須不斷地檢索整個數(shù)據(jù)庫，追加新的key，老化舊的key。在理想情況下，這些發(fā)生在同一數(shù)據(jù)模型中。

[[196104]]

我們的數(shù)據(jù)庫必須滿足三種獨立的查詢模式

一般來說，這些性能大部分取決于我們數(shù)據(jù)庫的性能，所以應(yīng)該了解一下RocksDB的內(nèi)部機制來提高它的性能。

RocksDB是一個日志結(jié)構(gòu)合并樹(log-structured-merge-tree，簡稱LSM)數(shù)據(jù)庫，這意味著它會不斷地將新的key附加到磁盤上的預(yù)寫日志(write-ahead-log)中，并把排序過的key存放在內(nèi)存中作為memtable的一部分。

key存放在內(nèi)存中作為memtable的一部分

寫入key是一個非常快速的過程。新的消息以追加的方式直接保存到磁盤上，并且數(shù)據(jù)條目在內(nèi)存中進行排序，以提供快速的搜索和批量寫入。

每當寫入到memtable的條目達到一定數(shù)量時，這些條目就會被作為SSTable(排序的字符串表)持久化到磁盤上。由于字符串已經(jīng)在內(nèi)存中排過序了，所以可以將它們直接寫入磁盤。

當前的memtable零級寫入磁盤

以下是在我們的生產(chǎn)日志中寫入的示例：

[JOB 40] Syncing log #655020 
 
[default] [JOB 40] Flushing memtable with next log file: 655022 
 
[default] [JOB 40] Level-0 flush table #655023: started 
 
[default] [JOB 40] Level-0 flush table #655023: 15153564 bytes OK 
 
[JOB 40] Try to delete WAL files size 12238598, prev total WAL file size 24346413, number of live WAL files 3.

每個SSTable是不可變的，一旦創(chuàng)建，永遠不會改變。這是什么寫入新的鍵這么快的原因。無需更新文件，無需寫入擴展。相反，在帶外壓縮階段，同一級別的多個SSTable可以合并成一個新的文件。

當在同一級別的SSTables壓縮時，它們的key會合并在一起，然后將新的文件升級到下一個更高的級別。

看一下我們生產(chǎn)的日志，可以看到這些壓縮作業(yè)的示例。在這種情況下，作業(yè)41正在壓縮4個0級文件，并將它們合并為單個較大的1級文件。

/data/dedupe.db$ head -1000 LOG | grep "JOB 41" 
 
[JOB 41] Compacting 4@0 + 4@1 files to L1, score 1.00 
 
[default] [JOB 41] Generated table #655024: 1550991 keys, 69310820 bytes 
 
[default] [JOB 41] Generated table #655025: 1556181 keys, 69315779 bytes 
 
[default] [JOB 41] Generated table #655026: 797409 keys, 35651472 bytes 
 
[default] [JOB 41] Generated table #655027: 1612608 keys, 69391908 bytes 
 
[default] [JOB 41] Generated table #655028: 462217 keys, 19957191 bytes 
 
[default] [JOB 41] Compacted 4@0 + 4@1 files to L1 => 263627170 bytes

壓縮完成后，新合并的SSTables將成為最終的數(shù)據(jù)庫記錄集，舊的SSTables將被取消鏈接。

如果我們登錄到生產(chǎn)實例，我們可以看到正在更新的預(yù)寫日志以及正在寫入、讀取和合并的單個SSTable。

日志和最近占用I/O的SSTable

下面生產(chǎn)的SSTable統(tǒng)計數(shù)據(jù)中，可以看到一共有四個“級別”的文件，并且一個級別比一個級別的文件大。

** Compaction Stats [default] ** 
 
Level    Files   Size(MB} Score Read(GB}  Rn(GB} Rnp1(GB} Write(GB} Wnew(GB} Moved(GB} W-Amp Rd(MB/s} Wr(MB/s} Comp(sec} Comp(cnt} Avg(sec} KeyIn KeyDrop 
 
---------------------------------------------------------------------------------------------------------------------------------------------------------- 
 
  L0      1/0      14.46   0.2      0.0     0.0      0.0       0.1      0.1       0.0   0.0      0.0     15.6         7         8    0.925       0      0 
 
  L1      4/0     194.95   0.8      0.5     0.1      0.4       0.5      0.1       0.0   4.7     20.9     20.8        26         2   12.764     12M     40 
 
  L2     48/0    2551.71   1.0      1.4     0.1      1.3       1.4      0.1       0.0  10.7     19.4     19.4        73         2   36.524     34M     14 
 
  L3    351/0   21735.77   0.8      2.0     0.1      1.9       1.9     -0.0       0.0  14.3     18.1     16.9       112         2   56.138     52M  3378K 
 
 Sum    404/0   24496.89   0.0      3.9     0.4      3.5       3.9      0.3       0.0  34.2     18.2     18.1       218        14   15.589     98M  3378K 
 
 Int      0/0       0.00   0.0      3.9     0.4      3.5       3.9      0.3       0.0  34.2     18.2     18.1       218        14   15.589     98M  3378K

RocksDB保存了索引和存儲在SSTable的特定SSTables的布隆過濾器，并將這些加載到內(nèi)存中。通過查詢這些過濾器和索引可以找到特定的key，然后將完整的SSTable作為LRU基礎(chǔ)的一部分加載到內(nèi)存中。

在絕大多數(shù)情況下，我們就可以看到新的消息了，這使得我們的去重系統(tǒng)成為教科書中的布隆過濾器案例。

布隆過濾器會告訴我們某個鍵“可能在集合中”，或者“絕對在集合中”。要做到這一點，布隆過濾器保存了已經(jīng)見過的任何元素的多種哈希函數(shù)的設(shè)置位。如果設(shè)置了散列函數(shù)的所有位，則過濾器將返回消息“可能在集合中”。

我們的集合包含{x，y，z}，在布隆過濾器中查詢w，則布隆過濾器會返回“不在集合中”，因為其中有一位沒有設(shè)置。

如果返回“可能在集合中”，則RocksDB可以從SSTables中查詢到原始數(shù)據(jù)，以確定該項是否在該集合中實際存在。但在大多數(shù)情況下，我們不需查詢?nèi)魏蜸STables，因為過濾器將返回“絕對不在集合”的響應(yīng)。

在我們查詢RocksDB時，我們會為所有要查詢的相關(guān)的messageId發(fā)出一個MultiGet。基于性能考慮，我們會批量地發(fā)布出去，以避免太多的并發(fā)鎖定操作。它還允許我們批量處理來自Kafka的數(shù)據(jù)，這是為了實現(xiàn)順序?qū)懭耄皇请S機寫入。

以上回答了為什么讀/寫工作負載性能這么好的問題，但仍然存在如何老化數(shù)據(jù)這個問題。

刪除：按大小來限制，而不是按時間來限制

在我們的去重過程中，我們必須要確定是否要將我們的系統(tǒng)限制在嚴格的“去重窗口”內(nèi)，或者是通過磁盤上的總數(shù)據(jù)庫大小來限制。

為了避免系統(tǒng)突然崩潰導(dǎo)致去重系統(tǒng)接收到所有客戶端的消息，我們決定按照大小來限制接收到消息數(shù)量，而不是按照設(shè)定的時間窗口來限制。這允許我們?yōu)槊總€RocksDB實例設(shè)置***的大小，以能夠處理突然的負載增加。但是其副作用是可能會將去重窗口降低到24小時以下。

我們會定期在RocksDB中老化舊的key，使其不會增長到***大小。為此，我們根據(jù)序列號保留key的第二個索引，以便我們可以先刪除最早接收到的key。

我們使用每個插入的key的序列號來刪除對象，而不是使用RocksDB TTL(這需要在打開數(shù)據(jù)庫的時候設(shè)置一個固定的TTL值)來刪除。

因為序列號是第二索引，所以我們可以快速地查詢，并將其標記為已刪除。下面是根據(jù)序列號進行刪除的示例代碼：

func (d *DB) delete(n int) error { 
 
        // open a connection to RocksDB 
 
        ro := rocksdb.NewDefaultReadOptions() 
 
        defer ro.Destroy() 
 
 
        // find our offset to seek through for writing deletes 
 
        hint, err := d.GetBytes(ro, []byte("seek_hint")) 
 
        if err != nil { 
 
                return err 
 
        } 
 
 
        it := d.NewIteratorCF(ro, d.seq) 
 
        defer it.Close() 
 
 
        // seek to the first key, this is a small 
 
        // optimization to ensure we don't use `.SeekToFirst()` 
 
        // since it has to skip through a lot of tombstones. 
 
        if len(hint) > 0 { 
 
                it.Seek(hint) 
 
        } else { 
 
                it.SeekToFirst() 
 
        } 
 
 
        seqs := make([][]byte, 0, n) 
 
        keys := make([][]byte, 0, n) 
 
 
        // look through our sequence numbers, counting up 
 
        // append any data keys that we find to our set to be 
 
        // deleted 
 
        for it.Valid() && len(seqs) < n { 
 
                k, v := it.Key(), it.Value() 
 
                key := make([]byte, len(k.Data())) 
 
                val := make([]byte, len(v.Data())) 
 
 
                copy(key, k.Data()) 
 
                copy(val, v.Data()) 
 
                seqs = append(seqs, key) 
 
                keys = append(keys, val) 
 
 
                it.Next() 
 
                k.Free() 
 
                v.Free() 
 
        } 
 
 
        wb := rocksdb.NewWriteBatch() 
 
        wo := rocksdb.NewDefaultWriteOptions() 
 
        defer wb.Destroy() 
 
        defer wo.Destroy() 
 
 
        // preserve next sequence to be deleted. 
 
        // this is an optimization so we can use `.Seek()` 
 
        // instead of letting `.SeekToFirst()` skip through lots of tombstones. 
 
        if len(seqs) > 0 { 
 
                hint, err := strconv.ParseUint(string(seqs[len(seqs)-1]), 10, 64) 
 
                if err != nil { 
 
                        return err 
 
                } 
 
 
                buf := []byte(strconv.FormatUint(hint+1, 10)) 
 
                wb.Put([]byte("seek_hint"), buf) 
 
        } 
 
 
        // we not only purge the keys, but the sequence numbers as well 
 
        for i := range seqs { 
 
                wb.DeleteCF(d.seq, seqs[i]) 
 
                wb.Delete(keys[i]) 
 
        } 
 
 
        // finally, we persist the deletions to our database 
 
        err = d.Write(wo, wb) 
 
        if err != nil { 
 
                return err 
 
        } 
 
 
        return it.Err() 
 
}

為了保證寫入速度，RocksDB不會立即返回并刪除一個鍵(記住，這些SSTable是不可變的!)。相反，RocksDB將添加一個“墓碑”，等到壓縮時再進行刪除。因此，我們可以通過順序?qū)懭雭砜焖俚乩匣苊庖驗閯h除舊項而破壞內(nèi)存數(shù)據(jù)。

確保正確性

我們已經(jīng)討論了如何確保數(shù)十億條消息投遞的速度、規(guī)模和低成本的搜索。***一個部分將講述各種故障情況下我們?nèi)绾未_保數(shù)據(jù)的正確性。

EBS快照和附件

為了確保RocksDB實例不會因為錯誤的代碼推送或潛在的EBS停機而損壞，我們會定期保存每個硬盤驅(qū)動器的快照。雖然EBS已經(jīng)在底層進行了復(fù)制，但是這一步可以防止數(shù)據(jù)庫受到某些底層機制的破壞。

如果我們想要啟用一個新實例，則可以先暫停消費者，將相關(guān)聯(lián)的EBS驅(qū)動器分開，然后重新附加到新的實例上去。只要我們保證分區(qū)ID相同，重新分配磁盤是一個輕松的過程，而且也能保證數(shù)據(jù)的正確性。

如果worker發(fā)生崩潰，我們依靠RocksDB內(nèi)置的預(yù)寫日志來確保不會丟失消息。消息不會從輸入主題提交，除非RocksDB已經(jīng)將消息持久化在日志中。

讀取輸出主題

你可能會注意到，本文直到這里都沒有提到“原子”步驟，以使我們能夠確保只投遞一次消息。我們的worker有可能在任何時候崩潰，不如：寫入RocksDB時、發(fā)布到輸出主題時，或確認輸入消息時。

我們需要一個原子的“提交”點，并覆蓋所有這些獨立系統(tǒng)的事務(wù)。對于輸入的數(shù)據(jù)，需要某個“事實來源”：輸出主題。

如果去重worker因為某些原因發(fā)生崩潰，或者遇到Kafka的某個錯誤，則系統(tǒng)在重新啟動時，會首先查閱這個“事實來源”，輸出主題，來判斷事件是否已經(jīng)發(fā)布出去。

如果在輸出主題中找到消息，而不是RocksDB(反之亦然)，則去重worker將進行必要的修復(fù)工作以保持數(shù)據(jù)庫和RocksDB之間的同步。實際上，我們使用輸出主題作為我們的預(yù)寫入日志和最終的事實來源，讓RocksDB進行檢查和校驗。

在生產(chǎn)環(huán)境中

我們的去重系統(tǒng)已經(jīng)在生產(chǎn)運行了3個月，對其運行的結(jié)果我們感到非常滿意。我們有以下這些數(shù)據(jù)：

在RocksDB中，有1.5TB的key存儲在磁盤上
在老化舊的key之前，有一個四個星期的去重窗口
RocksDB實例中存儲了大約600億個key
通過去重系統(tǒng)的消息達到2000億條

該系統(tǒng)快速、高效、容錯性強，也非常容易理解。

特別是我們的v2版本系統(tǒng)相比舊的去重系統(tǒng)有很多優(yōu)點。

以前我們將所有的key存儲在Memcached中，并使用Memcached的原子CAS(check-and-set)操作來設(shè)置key。 Memcached起到了提交點和“原子”地發(fā)布key的作用。

雖然這個功能很好，但它需要有大量的內(nèi)存來支撐所有的key。此外，我們必須能夠接受偶爾的Memcached故障，或者將用于高速內(nèi)存故障切換的支出加倍。

Kafka/RocksDB的組合相比舊系統(tǒng)有如下幾個優(yōu)勢：

數(shù)據(jù)存儲在磁盤上：在內(nèi)存中保存所有的key或完整的索引，其代價是非常昂貴的。通過將更多的數(shù)據(jù)轉(zhuǎn)移到磁盤，并利用多種不同級別的文件和索引，能夠大幅削減成本。對于故障切換，我們能夠使用冷備(EBS)，而不用運行其他的熱備實例。
分區(qū)：為了縮小key的搜索范圍，避免在內(nèi)存中加載太多的索引，我們需要保證某個消息能夠路由到正確的worker。在Kafka中對上游進行分區(qū)可以對這些消息進行路由，從而更有效地緩存和查詢。
顯式地進行老化處理：在使用Memcached的時候，我們在每個key上設(shè)置一個TTL來標記是否超時，然后依靠Memcached進程來對超時的key進行處理。這使得我們在面對大量數(shù)據(jù)時，可能會耗盡內(nèi)存，并且在丟棄大量超時消息時，Memcached的CPU使用率會飆升。而通過讓客戶端來處理key的刪除，使得我們可以通過縮短去重窗口來優(yōu)雅地處理。
將Kafka作為事實來源：為了真正地避免對多個提交點進行消息去重，我們必須使用所有下游消費者都常見的事實來源。使用Kafka作為“事實來源”是最合適的。在大多數(shù)失敗的情況下(除了Kafka失敗之外)，消息要么會被寫入Kafka，要么不會。使用Kafka可以確保按順序投遞消息，并在多臺計算機之間進行磁盤復(fù)制，而不需要在內(nèi)存中保留大量的數(shù)據(jù)。
批量讀寫：通過Kafka和RocksDB的批量I/O調(diào)用，我們可以通過利用順序讀寫來獲得更好的性能。與之前在Memcached中使用的隨機訪問不同，我們能夠依靠磁盤的性能來達到更高的吞吐量，并只在內(nèi)存中保留索引。

總的來說，我們對自己構(gòu)建的去重系統(tǒng)非常滿意。使用Kafka和RocksDB作為流媒體應(yīng)用的原語開始變得越來越普遍。我們很高興能繼續(xù)在這些原語之上構(gòu)建新的分布式應(yīng)用程序。

責任編輯：龐桂玉來源： CSDN大數(shù)據(jù)

大數(shù)據(jù)大數(shù)據(jù)技術(shù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何做到“恰好一次”地傳遞數(shù)十億條消息