微服務(wù)分布式架構(gòu)中,如何實(shí)現(xiàn)日志鏈路跟蹤?
背景
開(kāi)發(fā)排查系統(tǒng)問(wèn)題用得最多的手段就是查看系統(tǒng)日志,在分布式環(huán)境中一般使用ELK來(lái)統(tǒng)一收集日志,但是在并發(fā)大時(shí)使用日志定位問(wèn)題還是比較麻煩,我們來(lái)看下面的圖:
上圖一個(gè)用戶請(qǐng)求一個(gè)url,整個(gè)鏈路如圖,每個(gè)處理層都會(huì)產(chǎn)生日志,那我們?nèi)绾伟堰@些日志串在一些,形成一個(gè)請(qǐng)求全路徑日志。
在現(xiàn)有的系統(tǒng)中,由于大量的其他用戶/其他線程的日志也一起輸出穿行其中導(dǎo)致很難篩選出指定請(qǐng)求的全部相關(guān)日志。那我們?nèi)绾蝸?lái)處理呢?
解決思路
我們可以把每個(gè)請(qǐng)求弄一個(gè)唯一標(biāo)識(shí),然后我們可以在日志打印的時(shí)候代上每個(gè)請(qǐng)求都使用一個(gè)唯一標(biāo)識(shí),而且那個(gè)唯一標(biāo)識(shí)需要傳遞給下游服務(wù),下游服務(wù)打印日志的時(shí)候也帶上這個(gè)唯一標(biāo)識(shí),這樣就很好的追蹤全部的鏈路顯示在日志中。
那技術(shù)實(shí)現(xiàn)方案是什么呢?我們應(yīng)該盡可能的對(duì)代碼無(wú)入侵,使用Logback的MDC機(jī)制日志模板中加入traceId標(biāo)識(shí),取值方式為%X{traceId}。
什么是MDC
MDC(Mapped Diagnostic Context,映射調(diào)試上下文)是 log4j 和 logback 提供的一種方便在多線程條件下記錄日志的功能。MDC 可以看成是一個(gè)與當(dāng)前線程綁定的Map,可以往其中添加鍵值對(duì)。
MDC 中包含的內(nèi)容可以被同一線程中執(zhí)行的代碼所訪問(wèn)。當(dāng)前線程的子線程會(huì)繼承其父線程中的 MDC 的內(nèi)容。當(dāng)需要記錄日志時(shí),只需要從 MDC 中獲取所需的信息即可。MDC 的內(nèi)容則由程序在適當(dāng)?shù)臅r(shí)候保存進(jìn)去。對(duì)于一個(gè) Web 應(yīng)用來(lái)說(shuō),通常是在請(qǐng)求被處理的最開(kāi)始保存這些數(shù)據(jù)。
方案實(shí)現(xiàn)
由于MDC內(nèi)部使用的是ThreadLocal所以只有本線程才有效,子線程和下游的服務(wù)MDC里的值會(huì)丟失;所以方案主要的難點(diǎn)是解決值的傳遞問(wèn)題,主要包括以幾下部分:
- API網(wǎng)關(guān)中的MDC數(shù)據(jù)如何傳遞給下游服務(wù)
- 服務(wù)如何接收數(shù)據(jù),并且調(diào)用其他遠(yuǎn)程服務(wù)時(shí)如何繼續(xù)傳遞
- 異步的情況下(線程池)如何傳給子線程
修改日志模板
logback配置文件日志格式添加該標(biāo)識(shí)
網(wǎng)關(guān)添加過(guò)濾器
此過(guò)濾器就是來(lái)解決網(wǎng)關(guān)如何把MDC的數(shù)據(jù)傳遞給下游服務(wù):
生成traceId并通過(guò)header傳遞給下游服務(wù)
上面代碼有個(gè)MDC是屬于org.slf4j.MDC中的,下面就是常量的值:
- /**
- * 日志鏈路追蹤id信息頭
- */
- String TRACE_ID_HEADER = "x-traceId-header";
- /**
- * 日志鏈路追蹤id日志標(biāo)志
- */
- String LOG_TRACE_ID = "traceId";
下游服務(wù)增加spring攔截器
接收并保存traceId的值:
下游服務(wù)增加feign攔截器
繼續(xù)把當(dāng)前服務(wù)的traceId值傳遞給下游服務(wù):
解決父子線程傳遞問(wèn)題
主要針對(duì)業(yè)務(wù)會(huì)使用線程池(異步、并行處理),并且spring自己也有@Async注解來(lái)使用線程池,要解決這個(gè)問(wèn)題需要以下兩個(gè)步驟:
重寫(xiě)logback的LogbackMDCAdapter
由于logback的MDC實(shí)現(xiàn)內(nèi)部使用的是ThreadLocal不能傳遞子線程,所以需要重寫(xiě)替換為阿里的TransmittableThreadLocal。
TransmittableThreadLocal 是Alibaba開(kāi)源的、用于解決 “在使用線程池等會(huì)緩存線程的組件情況下傳遞ThreadLocal” 問(wèn)題的 InheritableThreadLocal 擴(kuò)展。若希望 TransmittableThreadLocal 在線程池與主線程間傳遞,需配合TtlRunnable和TtlCallable使用。
- 其他代碼與ch.qos.logback.classic.util.LogbackMDCAdapter一樣,只需改為調(diào)用copyOnInheritThreadLocal變量。
TtlMDCAdapterInitializer類用于程序啟動(dòng)時(shí)加載自己的mdcAdapter實(shí)現(xiàn):
擴(kuò)展線程池實(shí)現(xiàn)
增加TtlRunnable和TtlCallable擴(kuò)展:
場(chǎng)景測(cè)試
測(cè)試代碼如下:
- log.info("測(cè)試")
- @Async
- public void test(){
- log.info("測(cè)試1")
- }
- userService.findByUserName("gu");
api網(wǎng)關(guān)打印的日志
ELK聚合日志通過(guò)traceId查詢整條鏈路日志
當(dāng)系統(tǒng)出現(xiàn)異常時(shí),可直接通過(guò)該異常日志的traceId的值,在日志中心查詢?cè)撜?qǐng)求的所有日志信息,類似下圖:
總結(jié)
到此分布式的日志跟蹤就已經(jīng)完成了,這樣就很好的可以排查整個(gè)微服務(wù)的日志鏈路,謝謝!!!
作者:享學(xué)課堂
鏈接:https://www.jianshu.com/p/a3ebc9249b69
來(lái)源:簡(jiǎn)書(shū)