這個使用場景,Etcd 比 Redis 強
我們說,要評判一個東西的好壞,一定要說明具體在什么業務場景。脫離業務談好壞是沒有意義的。
Redis 非常強大,我出版過一本書專門介紹 Redis 的各種用法。但這并不是說 Redis 在各種方面都沒有對手。至少在分布式系統的配置更新這個場景上面,我認為 etcd 做得更好。
要解釋這個問題,我們來看一個具體的業務場景:
在 Redis 中有一個列表 sentence,里面會源源不斷地寫入字符串?,F在我有一個過濾程序:trash_filter.py,它一條一條從 Redis 讀取數據,判斷字符串中是否有特定的關鍵詞,如果有,那么直接丟棄。如果沒有,那么把數據存入 MongoDB。
這個場景非常簡單,于是你很快就寫出了一個 Python 程序:
- import redis
- class TrashFilter:
- def __init__(self):
- self.client = redis.Redis()
- self.trash_words = ['垃圾']
- def read_data(self):
- while True:
- data = self.client.lpop('sentence')
- if not data:
- return
- yield data.decode()
- def do_filter(self):
- for sentence in self.read_data():
- for word in self.trash_words:
- if word in sentence:
- break
- else:
- self.save_sentence(sentence)
- def save_sentence(self, sentence):
- print('進行后續保存 sentence 的操作:', sentence)
- if __name__ == '__main__':
- trash_filter = TrashFilter()
- trash_filter.do_filter()
在上面的代碼中,需要過濾的詞是以列表的形式直接寫到代碼里面的。那么問題來了,如果這些過濾詞是動態改變的怎么辦?每次為了修改這些詞,你都需要重啟一下這個程序嗎?
可能有同學提到,可以把這些詞存放到數據庫里面,每次從數據庫里面讀取就可以了。Redis 本身就是一個 Key-Value 數據庫,可以直接使用 Redis 的字符串來存放:
- def do_filter(self):
- for sentence in self.read_data():
- for word in self.client.get('trash_words').decode().split(','):
- if word in sentence:
- break
- else:
- self.save_sentence(sentence)
把所有的過濾詞以英文逗號分割組成長字符串,儲存到Redis 中名為trash_words的字符串里。每讀取到一個句子,都從 Redis 里面再次讀取這個過濾詞列表,然后進行檢查。
這樣做,實時性確實得到了保障,每次只要trash_word字符串一發生修改,程序立刻就能獲取到最新的過濾詞。
但這樣做有一個問題——每次讀取trash_words是需要請求網絡的,而網絡 IO 是非常費時間的。
那么我們是不是可以每5分鐘獲取一次最新的trash_words呢?當然也可以,我在文章:一日一技:實現有過期時間的LRU緩存中介紹過如何實現一個帶有過期時間的 LRU 緩存。
這樣做,速度確實提高了,但是實時性又降低了。
如果讀者對 Redis 比較熟悉,當然也可以使用 Lua 腳本或者 Redis 的Pipeline 實現在一次請求里面同時獲取一條句子并拿到過濾詞列表,或者使用 Monitor 命令監控 Key 的變化。但代碼寫起來會比較復雜。
有沒有又快又簡單還穩定的解決方案呢?答案是有,那就是使用 etcd.
etcd 的官網寫著這樣一句話:
A distributed, reliable key-value store for the most critical data of a distributed system.
用于分布式系統最關鍵數據的分布式、可靠的鍵值儲存。
etcd 本來就是為了分布式系統而生的,它專注于鍵值儲存。初看起來,相當于只是 Redis 的字符串功能,但卻比 Redis 的字符串更為強大。
我們可以監控 etcd 中的一個鍵,當它發生變化的時候,就調用我們提前定義好的函數。
在 Ubuntu 中,可以使用 apt-get 安裝 etcd,在 macOS 中,可以使用 homebrew 安裝 etcd。當然 etcd 也有已經編譯好的可執行文件,可以從Releases · etcd-io/etcd · GitHub[1]下載下來直接運行就能啟動一個單節點的 etcd 服務。
啟動服務以后,我們再來安裝一個Python 庫,用來操作 etcd:
- pip install etcd3
Python 讀寫 etcd 非常簡單:
- import etcd3
- client = etcd3.client()
- client.put('key', value) # 添加數據
- value, kv_meta = client.get('key') # 讀取數據,返回的數據value 是 bytes 型數據
而我們要用的,是 etcd 的watch功能。我們先寫一段簡單的代碼來說明 watch的功能:
- import etcd3
- import time
- def callback(response):
- for event in response.events:
- print(f'Key: {event.key}發生改變!新的值是:{event.value}')
- client = etcd3.client()
- client.add_watch_callback('test', callback)
- for i in range(100):
- print(i)
- time.sleep(1)
正常情況下,這個程序會打印從0到99,每秒打印一個數字。但是當我們中途修改了 etcd 中,名為test這個 key 的值以后,我們發現回調函數被運行了,如下圖所示:
可以看到,etcd 監控一個 key 是否變化,它不像 Redis 的blpop這樣阻塞式地監控,而是在后臺監控,當key 的值發生了改變時,觸發一個事件,調用回調函數。所以整個監控的過程不會干預我們自己程序的正常運行。
在一般情況下,傳入回調函數的response 對象,它的.events屬性是只有一個元素的列表。但如果這個 key 在極短時間內變化了很多次,那么這個列表里面可能有多個值。
回到最開始需要解決的問題,我們引入 etcd 以后,困難輕輕松松就被解決了:
通過增加方框框住的update_trash_words方法,并把它作為監控trash_words這個Key 變化事件的回調函數,一旦這個 Key 發生了變化,就會調用回調函數,從而更新self.trash_words這個屬性。
運行效果如下圖所示:
可以看到,在紅線上面,我是有臟數據的句子是不被過濾的,此時臟字也不是過濾詞。但是當我們在命令行里面更新了 etcd,把新的過濾詞改成垃圾,臟以后,就到了紅線下面,我是有臟數據的句子就會被過濾了。
這樣就做到了同時兼顧時效性和速度,避免了無效的網絡請求。
參考文獻
[1] Releases · etcd-io/etcd · GitHub: https://github.com/etcd-io/etcd/releases
本文轉載自微信公眾號「未聞Code」,可以通過以下二維碼關注。轉載本文請聯系未聞Code公眾號。