程序員筆記 | 詳解Eureka緩存機制
Eureka是Netflix開源的、用于實現服務注冊和發現的服務。Spring Cloud Eureka基于Eureka進行二次封裝,增加了更人性化的UI,使用更為方便。但是由于Eureka本身存在較多緩存,服務狀態更新滯后,最常見的狀況是:服務下線后狀態沒有及時更新,服務消費者調用到已下線的服務導致請求失敗。本文基于Spring Cloud Eureka 1.4.4.RELEASE,在默認region和zone的前提下,介紹Eureka的緩存機制。
一、AP特性
從CAP理論看,Eureka是一個AP系統,優先保證可用性(A)和分區容錯性(P),不保證強一致性(C),只保證最終一致性,因此在架構中設計了較多緩存。
(Eureka高可用架構)
二、服務狀態
Eureka服務狀態enum類:
- com.netflix.appinfo.InstanceInfo.InstanceStatus
三、Eureka Server
在Eureka高可用架構中,Eureka Server也可以作為Client向其他server注冊,多節點相互注冊組成Eureka集群,集群間相互視為peer。Eureka Client向Server注冊、續約、更新狀態時,接受節點更新自己的服務注冊信息后,逐個同步至其他peer節點。
【注意】如果server-A向server-B節點單向注冊,則server-A視server-B為peer節點,server-A接受的數據會同步給server-B,但server-B接受的數據不會同步給server-A。
1. 緩存機制
Eureka Server存在三個變量:(registry、readWriteCacheMap、readOnlyCacheMap)保存服務注冊信息,默認情況下定時任務每30s將readWriteCacheMap同步至readOnlyCacheMap,每60s清理超過90s未續約的節點,Eureka Client每30s從readOnlyCacheMap更新服務注冊信息,而UI則從registry更新服務注冊信息。
三級緩存:
緩存相關配置:
關鍵類:
四、Eureka Client
Eureka Client存在兩種角色:服務提供者和服務消費者,作為服務消費者一般配合Ribbon或Feign(Feign內部使用Ribbon)使用。Eureka Client啟動后,作為服務提供者立即向Server注冊,默認情況下每30s續約(renew);作為服務消費者立即向Server全量更新服務注冊信息,默認情況下每30s增量更新服務注冊信息;Ribbon延時1s向Client獲取使用的服務注冊信息,默認每30s更新使用的服務注冊信息,只保存狀態為UP的服務。
二級緩存:
緩存相關配置:
關鍵類:
五、默認配置下服務消費者最長感知時間
考慮如下情況:
- 0s時服務未通知Eureka Client直接下線;
- 29s時***次過期檢查evict未超過90s;
- 89s時第二次過期檢查evict未超過90s;
- 149s時第三次過期檢查evict未續約時間超過了90s,故將該服務實例從registry和readWriteCacheMap中刪除;
- 179s時定時任務從readWriteCacheMap更新至readOnlyCacheMap;
- 209s時Eureka Client從Eureka Server的readOnlyCacheMap更新;
- 239s時Ribbon從Eureka Client更新。
因此,極限情況下服務消費者最長感知時間將***趨近240s。
六、應對措施
服務注冊中心在選擇使用Eureka時說明已經接受了其優先保證可用性(A)和分區容錯性(P)、不保證強一致性(C)的特點。如果需要優先保證強一致性(C),則應該考慮使用ZooKeeper等CP系統作為服務注冊中心。分布式系統中一般配置多節點,單個節點服務上線的狀態更新滯后并沒有什么影響,這里主要考慮服務下線后狀態更新滯后的應對措施。
1. Eureka Server
- 縮短readOnlyCacheMap更新周期。縮短該定時任務周期可減少滯后時間。
- eureka.server.responsecCacheUpdateIntervalMs: 10000 # Eureka Server readOnlyCacheMap更新周期
- eureka.server.useReadOnlyResponseCache: false # 是否使用readOnlyCacheMap
2. Eureka Client
- 服務消費者使用容錯機制。如Spring Cloud Retry和Hystrix,Ribbon、Feign、Zuul都可以配置Retry,服務消費者訪問某個已下線節點時一般報ConnectTimeout,這時可以通過Retry機制重試下一個節點。
- 服務消費者縮短更新周期。Eureka Client和Ribbon二級緩存影響狀態更新,縮短這兩個定時任務周期可減少滯后時間,例如配置:
- eureka.client.registryFetchIntervalSeconds: 5 # Eureka Client更新周期
- ribbon.ServerListRefreshInterval: 2000
七、網關實現服務下線實時感知
在軟件工程中,沒有一個問題是中間層解決不了的,而網關是服務提供者和服務消費者的中間層。以Spring Cloud Zuul網關為例,網關作為Eureka Client保存了服務注冊信息,服務消費者通過網關將請求轉發給服務提供者,只需要做到服務提供者下線時通知網關在自己保存的服務列表中使該服務失效。為了保持網關的獨立性,可實現一個獨立服務接收下線通知并協調網關集群。
【本文是51CTO專欄機構宜信技術學院的原創文章,微信公眾號“宜信技術學院( id: CE_TECH)”】