Spring Cloud構(gòu)建微服務架構(gòu)：分布式服務跟蹤（收集原理）

作者：翟永超 2018-04-16 14:56:56

我們介紹一下關于Zipkin收集跟蹤信息的過程細節(jié)，以幫助我們更好地理解Sleuth生產(chǎn)跟蹤信息以及輸出跟蹤信息的整體過程和工作原理。

在本節(jié)內(nèi)容之前，我們已經(jīng)對如何引入Sleuth跟蹤信息和搭建Zipkin服務端分析跟蹤延遲的過程做了詳細的介紹，相信大家對于Sleuth和Zipkin已經(jīng)有了一定的感性認識。接下來，我們介紹一下關于Zipkin收集跟蹤信息的過程細節(jié)，以幫助我們更好地理解Sleuth生產(chǎn)跟蹤信息以及輸出跟蹤信息的整體過程和工作原理。

[[226135]]

數(shù)據(jù)模型

我們先來看看Zipkin中關于跟蹤信息的一些基礎概念。由于Zipkin的實現(xiàn)借鑒了Google的Dapper，所以它們有著類似的核心術語，主要有下面幾個內(nèi)容：

Span：它代表了一個基礎的工作單元。我們以HTTP請求為例，一次完整的請求過程在客戶端和服務端都會產(chǎn)生多個不同的事件狀態(tài)（比如下面所說的四個核心Annotation所標識的不同階段），對于同一個請求來說，它們屬于一個工作單元，所以同一HTTP請求過程中的四個Annotation同屬于一個Span。每一個不同的工作單元都通過一個64位的ID來唯一標識，稱為Span ID。另外，在工作單元中還存儲了一個用來串聯(lián)其他工作單元的ID，它也通過一個64位的ID來唯一標識，稱為Trace ID。在同一條請求鏈路中的不同工作單元都會有不同的Span ID，但是它們的Trace ID是相同的，所以通過Trace ID可以將一次請求中依賴的所有依賴請求串聯(lián)起來形成請求鏈路。除了這兩個核心的ID之外，Span中還存儲了一些其他信息，比如：描述信息、事件時間戳、Annotation的鍵值對屬性、上一級工作單元的Span ID等。
Trace：它是由一系列具有相同Trace ID的Span串聯(lián)形成的一個樹狀結(jié)構(gòu)。在復雜的分布式系統(tǒng)中，每一個外部請求通常都會產(chǎn)生一個復雜的樹狀結(jié)構(gòu)的Trace。
Annotation：它用來及時地記錄一個事件的存在。我們可以把Annotation理解為一個包含有時間戳的事件標簽，對于一個HTTP請求來說，在Sleuth中定義了下面四個核心Annotation來標識一個請求的開始和結(jié)束：

cs（Client Send）：該Annotation用來記錄客戶端發(fā)起了一個請求，同時它也標識了這個HTTP請求的開始。

sr（Server Received）：該Annotation用來記錄服務端接收到了請求，并準備開始處理它。通過計算sr與cs兩個Annotation的時間戳之差，我們可以得到當前HTTP請求的網(wǎng)絡延遲。

ss（Server Send）：該Annotation用來記錄服務端處理完請求后準備發(fā)送請求響應信息。通過計算ss與sr兩個Annotation的時間戳之差，我們可以得到當前服務端處理請求的時間消耗。

cr（Client Received）：該Annotation用來記錄客戶端接收到服務端的回復，同時它也標識了這個HTTP請求的結(jié)束。通過計算cr與cs兩個Annotation的時間戳之差，我們可以得到該HTTP請求從客戶端發(fā)起開始到接收服務端響應的總時間消耗。

BinaryAnnotation：它用來對跟蹤信息添加一些額外的補充說明，一般以鍵值對方式出現(xiàn)。比如：在記錄HTTP請求接收后執(zhí)行具體業(yè)務邏輯時，此時并沒有默認的Annotation來標識該事件狀態(tài)，但是有BinaryAnnotation信息對其進行補充。

收集機制

在理解了Zipkin的各個基本概念之后，下面我們結(jié)合前面章節(jié)中實現(xiàn)的例子來詳細介紹和理解Spring Cloud Sleuth是如何對請求調(diào)用鏈路完成跟蹤信息的生產(chǎn)、輸出和后續(xù)處理的。

首先，我們來看看Sleuth在請求調(diào)用時是怎么樣來記錄和生成跟蹤信息的。下圖展示了我們在本章節(jié)中實現(xiàn)示例的運行全過程：客戶端發(fā)送了一個HTTP請求到trace-1，trace-1依賴于trace-2的服務，所以trace-1再發(fā)送一個HTTP請求到trace-2，待trace-2返回響應之后，trace-1再組織響應結(jié)果返回給客戶端。

在上圖的請求過程中，我們?yōu)檎麄€調(diào)用過程標記了10個標簽，它們分別代表了該請求鏈路運行過程中記錄的幾個重要事件狀態(tài)，我們根據(jù)事件發(fā)生的時間順序我們?yōu)檫@些標簽做了從小到大的編號，1代表請求的開始、10代表請求的結(jié)束。每個標簽中記錄了一些我們上面提到過的核心元素：Trace ID、Span ID以及Annotation。由于這些標簽都源自一個請求，所以他們的Trace ID相同，而標簽1和標簽10是起始和結(jié)束節(jié)點，它們的Trace ID與Span ID是相同的。

根據(jù)Span ID，我們可以發(fā)現(xiàn)在這些標簽中一共產(chǎn)生了4個不同ID的Span，這4個Span分別代表了這樣4個工作單元：

Span T：記錄了客戶端請求到達trace-1和trace-1發(fā)送請求響應的兩個事件，它可以計算出了客戶端請求響應過程的總延遲時間。
Span A：記錄了trace-1應用在接收到客戶端請求之后調(diào)用處理方法的開始和結(jié)束兩個事件，它可以計算出trace-1應用用于處理客戶端請求時，內(nèi)部邏輯花費的時間延遲。
Span B：記錄了trace-1應用發(fā)送請求給trace-2應用、trace-2應用接收請求，trace-2應用發(fā)送響應、trace-1應用接收響應四個事件，它可以計算出trace-1調(diào)用trace-2的總體依賴時間（cr - cs），也可以計算出trace-1到trace-2的網(wǎng)絡延遲（sr - cs），也可以計算出trace-2應用用于處理客戶端請求的內(nèi)部邏輯花費的時間延遲（ss - sr）。
Span C：記錄了trace-2應用在接收到trace-1的請求之后調(diào)用處理方法的開始和結(jié)束兩個事件，它可以計算出trace-2應用用于處理來自trace-1的請求時，內(nèi)部邏輯花費的時間延遲。

在圖中展現(xiàn)的這個4個Span正好對應了Zipkin查看跟蹤詳細頁面中的顯示內(nèi)容，它們的對應關系如下圖所示：

仔細的讀者可能還有這樣一個疑惑：我們在Zipkin服務端查詢跟蹤信息時（如下圖所示），在查詢結(jié)果頁面中顯示的spans是5，而點擊進入跟蹤明細頁面時，顯示的Total Spans又是4，為什么會出現(xiàn)span數(shù)量不一致的情況呢？

實際上這兩邊的span數(shù)量內(nèi)容有不同的含義，在查詢結(jié)果頁面中的5 spans代表了總共接收的Span數(shù)量，而在詳細頁面中的Total Span則是對接收Span進行合并后的結(jié)果，也就是前文中我們介紹的4個不同ID的Span內(nèi)容。下面我們來詳細研究一下Zipkin服務端收集客戶端跟蹤信息的過程，看看它到底收到了哪些具體的Span內(nèi)容，從而來理解Zipkin中收集到的Span總數(shù)量。

為了更直觀的觀察Zipkin服務端的收集過程，我們可以對之前實現(xiàn)的消息中間件方式收集跟蹤信息的程序進行調(diào)試。通過在Zipkin服務端的消息通道監(jiān)聽程序中增加斷點，我們就能清楚的知道客戶端都發(fā)送了一些什么信息到Zipkin的服務端。在spring-cloud-sleuth-zipkin-stream依賴包中的代碼并不多，我們很容易的就能找到定義消息通道監(jiān)聽的實現(xiàn)類：org.springframework.cloud.sleuth.zipkin.stream.ZipkinMessageListener。它的具體實現(xiàn)如下所示，其中SleuthSink.INPUT定義了監(jiān)聽的輸入通道，默認會使用名為sleuth的主題，我們也可以通過Spring Cloud Stream的配置對其進行修改。

@MessageEndpoint 
@Conditional(NotSleuthStreamClient.class) 
public class ZipkinMessageListener { 
   
    final Collector collector; 
 
    @ServiceActivator(inputChannel = SleuthSink.INPUT) 
    public void sink(Spans input) { 
        List<zipkin.Span> converted = ConvertToZipkinSpanList.convert(input); 
        this.collector.accept(converted, Callback.NOOP); 
    } 
     
    ... 
 
}

從通道監(jiān)聽方法的定義中我們可以看到Sleuth與Zipkin在整合的時候是有兩個不同的Span定義的，一個是消息通道的輸入對象org.springframework.cloud.sleuth.stream.Spans，它是sleuth中定義的用于消息通道傳輸?shù)腟pan對象，每個消息中包含的Span信息定義在org.springframework.cloud.sleuth.Span對象中，但是真正在zipkin服務端使用的并非這個Span對象，而是zipkin自己的zipkin.Span對象。所以，在消息通道監(jiān)聽處理方法中，對sleuth的Span做了處理，每次接收到sleuth的Span之后就將其轉(zhuǎn)換成Zipkin的Span。

下面我們可以嘗試在sink(Spans input)方法實現(xiàn)的***行代碼中加入斷點，并向trace-1發(fā)送一個請求，觸發(fā)跟蹤信息發(fā)送到RabbitMQ上。此時我們通過DEBUG模式可以發(fā)現(xiàn)消息通道中都接收到了兩次輸入，一次來自trace-1，一次來自trace-2。下面兩張圖分別展示了來自trace-1和trace-2輸出的跟蹤消息，其中trace-1的跟蹤消息包含了3條span信息，trace-2的跟蹤消息包含了2條span信息，所以在這個請求調(diào)用鏈上，一共發(fā)送了5個span信息，也就是我們在Zipkin搜索結(jié)果頁面中看到的spans數(shù)量信息。

點開一個具體的Span內(nèi)容，我們可以看到如下所示的結(jié)構(gòu)，它記錄了Sleuth中定義的Span詳細信息，包括該Span的開始時間、結(jié)束時間、Span的名稱、Trace ID、Span ID、Tags（對應Zipkin中的BinaryAnnotation）、Logs（對應Zipkin中的Annotation）等我們之前提到過的核心跟蹤信息。

介紹到這里仔細的讀者可能會有一個這樣的疑惑，在明細信息中展示的Trace ID和Span ID的值為什么與列表展示的概要信息中的Trace ID和Span ID的值不一樣呢？實際上，Trace ID和Span ID都是使用long類型存儲的，在DEBUG模式下查看其明細時自然是long類型，也就是它的原始值，但是在查看Span對象的時候，我們看到的是通過toString()函數(shù)處理過的值，從sleuth的Span源碼中我們可以看到如下定義，在輸出Trace ID和Span ID時都調(diào)用了idToHex函數(shù)將long類型的值轉(zhuǎn)換成了16進制的字符串值，所以在DEBUG時我們會看到兩個不一樣的值。

public String toString() { 
    return "[Trace: " + idToHex(this.traceId) + ", Span: " + idToHex(this.spanId) 
            + ", Parent: " + getParentIdIfPresent() + ", exportable:" + this.exportable + "]"; 
} 
 
public static String idToHex(long id) { 
    return Long.toHexString(id); 
}

在接收到Sleuth之后我們將程序繼續(xù)執(zhí)行下去，可以看到經(jīng)過轉(zhuǎn)換后的Zipkin的Span內(nèi)容，它們保存在一個名為converted的列表中，具體內(nèi)容如下所示：

上圖展示了轉(zhuǎn)換后的Zipkin Span對象的詳細內(nèi)容，我們可以看到很多熟悉的名稱，也就是之前我們介紹的關于zipkin中的各個基本概念，而這些基本概念的值我們也都可以在之前sleuth的原始span中找到，其中annotations和binaryAnnotations有一些特殊，在sleuth定義的span中沒有使用相同的名稱，而是使用了logs和tags來命名。從這里的詳細信息中，我們可以直觀的看到annotations和binaryAnnotations的作用，其中annotations中存儲了當前Span包含的各種事件狀態(tài)以及對應事件狀態(tài)的時間戳，而binaryAnnotations則存儲了對事件的補充信息，比如上圖中存儲的就是該HTTP請求的細節(jié)描述信息，除此之外，它也可以存儲對調(diào)用函數(shù)的詳細描述（如下圖所示）。

下面我們再來詳細看看通過調(diào)試消息監(jiān)聽程序接收到的這5個Span內(nèi)容。首先，我們可以發(fā)現(xiàn)每個Span中都包含有3個ID信息，其中除了標識Span自身的ID以及用來標識整條鏈路的traceId之外，還有一個之前沒有提過的parentId，它是用來標識各Span父子關系的ID（它的值來自與上一步執(zhí)行單元Span的ID），通過parentId的定義我們可以為每個Span找到它的前置節(jié)點，從而定位每個Span在請求調(diào)用鏈中的確切位置。在每條調(diào)用鏈路中都有一個特殊的Span，它的parentId為null，這類Span我們稱它為Root Span，也就是這條請求調(diào)用鏈的根節(jié)點。為了弄清楚這些Span之間的關系，我們可以從Root Span開始來整理出整條鏈路的Span內(nèi)容。下表展示了我們從Root Span開始，根據(jù)各個Span的父子關系***整理出的結(jié)果：

上表中的Host代表了該Span是從哪個應用發(fā)送過來的；Span ID是當前Span的唯一標識；Parent Span ID代表了上一執(zhí)行單元的Span ID；Annotation代表了該Span中記錄的事件（這里主要用來記錄HTTP請求的四個階段，表中內(nèi)容作了省略處理，只記錄了Annotation名稱（sr代表服務端接收請求，ss代表服務端發(fā)送請求，cs代表客戶端發(fā)送請求，cr代表客戶端接收請求），省略了一些其他細節(jié)信息，比如服務名、時間戳、IP地址、端口號等信息）；Binary Annotation代表了事件的補充信息（Sleuth的原始Span記錄更為詳細，Zipkin的Span處理后會去掉一些內(nèi)容，對于有Annotation標識的信息，不再使用Binary Annotation補充，在上表中我們只記錄了服務名、類名、方法名，同樣省略了一些其他信息，比如：時間戳、IP地址、端口號等信息）。

通過收集到的Zipkin Span詳細信息，我們很容易的可以將它們與本節(jié)開始時介紹的一次調(diào)用鏈路中的10個標簽內(nèi)容聯(lián)系起來：

Span ID = T的標簽有2個，分別是序號1和10，它們分別表示這次請求的開始和結(jié)束。它們對應了上表中ID為e9a933ec50d180d6的Span，該Span的內(nèi)容在標簽10執(zhí)行結(jié)束后，由trace-1將標簽1和10合并成一個Span發(fā)送給Zipkin Server。
Span ID = A的標簽有2個，分別是序號2和9，它們分別表示了trace-1請求接收后，具體處理方法調(diào)用的開始和結(jié)束。該Span的內(nèi)容在標簽9執(zhí)行結(jié)束后，由trace-1將標簽2和9合并成一個Span發(fā)送給Zipkin Server。
Span ID = B的標簽有4個，分別是序號3、4、7、8，該Span比較特殊，它的產(chǎn)生跨越了兩個實例，其中標簽3和8是由trace-1生成的，而標簽4和7則是由trace-2生成的，所以該標簽會拆分成兩個Span內(nèi)容發(fā)送給Zipkin Server。trace-1會在標簽8結(jié)束的時候?qū)撕?和8合并成一個Span發(fā)送給Zipkin Server，而trace-2會在標簽7結(jié)束的時候?qū)撕?和7合并成一個Span發(fā)送給Zipkin Server。
Span ID = C的標簽有2個，分別是序號5和6，它們分別表示了trace-2請求接收后，具體處理方法調(diào)用的開始和結(jié)束。該Span的內(nèi)容在標簽6執(zhí)行結(jié)束后，由trace-2將標簽2和9合并成一個Span發(fā)送給Zipkin Server。

所以，根據(jù)上面的分析，Zipkin總共會收到5個Span：一個Span T，一個Span A，兩個Span B，一個Span C。結(jié)合之前請求鏈路的標簽圖和這里的Span記錄，我們可以總結(jié)出如下圖所示的Span收集過程，讀者可以參照此圖來理解Span收集過程的處理邏輯以及各個Span之間的關系。

雖然，Zipkin服務端接收到了5個Span，但就如前文中分析的那樣，其中有兩個Span ID=B的標簽，由于它們來自于同一個HTTP請求（trace-1對trace-2的服務調(diào)用），概念上它們屬于同一個工作單元，因此Zipkin服務端在前端展現(xiàn)分析詳情時會將這兩個Span合并了來顯示，而合并后的Span數(shù)量就是在請求鏈路詳情頁面中Total Spans的數(shù)量。

下圖是本章示例的一個請求鏈路詳情頁面，在頁面中顯示了各個Span的延遲統(tǒng)計，其中第三條Span信息就是trace-1對trace-2的HTTP請求調(diào)用，通過點擊它可以查看該Span的詳細信息，點擊后會以模態(tài)框的方式彈出Span詳細信息（如圖下半部分），在彈出框中詳細展示了Span的Annotation和BinaryAnnotation信息，在Annotation區(qū)域我們可以看到它同時包含了trace-1和trace-2發(fā)送的Span信息，而在BinaryAnnotation區(qū)域則展示了該HTTP請求的詳細信息。

完整示例：

讀者可以根據(jù)喜好選擇下面的兩個倉庫中查看trace-1和trace-2兩個項目：

Github：https://github.com/dyc87112/SpringCloud-Learning/

Gitee：https://gitee.com/didispace/SpringCloud-Learning/

【本文為51CTO專欄作者“翟永超”的原創(chuàng)稿件，轉(zhuǎn)載請通過51CTO聯(lián)系作者獲取授權(quán)】

戳這里，看該作者更多好文

責任編輯：武曉燕來源： 51CTO專欄

微服務架構(gòu)分布式服務

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Spring Cloud構(gòu)建微服務架構(gòu)：分布式服務跟蹤（收集原理）