Sentry 監(jiān)控 - Distributed Tracing 分布式跟蹤

作者：為少 2021-09-30 23:12:52

分布式跟蹤(Distributed tracing)通過捕獲軟件系統之間的交互來提供相關錯誤和事務的連接視圖。通過跟蹤，Sentry 可以跟蹤您的軟件性能并顯示跨多個系統的錯誤影響。

[[427023]]

本文轉載自微信公眾號「黑客下午茶」，作者為少。轉載本文請聯系黑客下午茶公眾號。

啟用性能監(jiān)控以擴充您現有的錯誤數據，跟蹤從前端到后端的交互。通過跟蹤，Sentry 可以跟蹤您的軟件性能，測量吞吐量和延遲等指標，并顯示跨多個系統的錯誤影響。跟蹤使 Sentry 成為更完整的監(jiān)控解決方案，幫助您更快地診斷問題并衡量應用程序的整體健康狀況。Sentry 中的跟蹤提供了以下見解：

特定錯誤事件或 issue 發(fā)生了什么
導致應用程序出現瓶頸或延遲 issue 的條件
消耗時間最多的端點或操作

什么是跟蹤?

首先，請注意跟蹤不是什么：跟蹤不是分析。盡管分析和跟蹤的目標有相當多的重疊，雖然它們都可用于診斷應用程序中的問題，但它們在測量內容和數據記錄方式方面有所不同。

profiler 可以測量應用程序操作的多個方面：執(zhí)行的指令數、各種進程使用的內存量、給定函數調用所花費的時間量等等。生成的 profile 是這些測量值的統計匯總。

https://en.wikipedia.org/wiki/Profiling_(computer_programming)

另一方面，tracing tool 關注發(fā)生了什么(以及何時)，而不是發(fā)生了多少次或花費了多長時間。結果跟蹤(resulting trace)是在程序執(zhí)行期間發(fā)生的事件日志，通常跨多個系統。盡管跟蹤最常見 - 或者，就 Sentry 的跟蹤而言，總是 - 包括時間戳(timestamps)，允許計算持續(xù)時間，但測量性能并不是它們的唯一目的。它們還可以顯示互連系統交互的方式，以及一個系統中的問題可能導致另一個系統出現問題的方式。

https://en.wikipedia.org/wiki/Tracing_(software)

為什么要跟蹤?

應用程序通常由互連的組件組成，這些組件也稱為服務。作為一個例子，讓我們看一個現代 Web 應用程序，它由以下組件組成，由網絡邊界分隔：

Frontend (Single-Page Application) 前端
Backend (REST API) 后端
Task Queue 任務隊列
Database Server 數據庫服務器
Cron Job Scheduler 定時任務調度器

這些組件中的每一個都可以在不同的平臺上用不同的語言編寫。每個都可以使用 Sentry SDK 單獨檢測以捕獲錯誤數據或崩潰報告，但該檢測不能提供完整的圖片，因為每個部分都是單獨考慮的。跟蹤允許您將所有數據聯系在一起。

在我們的示例 Web 應用程序中，跟蹤意味著能夠跟蹤從前端到后端和后端的請求，從請求創(chuàng)建的任何后臺任務(background tasks)或通知作業(yè)(notification jobs)中提取數據。這不僅可以讓您關聯 Sentry 錯誤報告，查看一個服務中的錯誤如何傳播到另一個服務，而且還可以讓您更深入地了解哪些服務可能對應用程序的整體性能產生負面影響。

在學習如何在您的應用程序中啟用跟蹤之前，了解一些關鍵術語以及它們之間的關系會有所幫助。

跟蹤(Traces)、事務(Transactions和跨度(Spans)

trace 表示您要測量或跟蹤的整個操作的記錄 - 例如頁面加載、用戶在應用程序中完成某些操作的實例或后端的 cron job。當跟蹤包括多個服務中的工作時，例如上面列出的服務，它被稱為分布式跟蹤，因為跟蹤分布在這些服務中。

每個 trace 由一個或多個稱為 transactions 的樹狀結構組成，其節(jié)點稱為 spans。在大多數情況下，每個 transaction 代表被調用服務的單個實例，并且該 transaction 中的每個 span 代表該服務執(zhí)行單個工作單元，無論是調用該服務中的函數還是調用不同的服務。這是一個示例跟蹤，分解為事務(transactions)和跨度(spans)：

由于事務(transaction)具有樹結構，因此頂級跨度(top-level spans)本身可以分解為更小的跨度(smaller spans)，這反映了一個函數可能調用許多其他更小的函數的方式;這是使用父子隱喻來表達的，因此每個跨度都可能是多個其他子跨度的父跨度。此外，由于所有樹都必須有一個根，因此每個事務中的一個跨度始終代表事務本身，而事務中的所有其他跨度都從該根跨度下降。這是上圖中事務之一的放大視圖：

為了使所有這些更具體，讓我們再次考慮我們的示例 Web 應用程序。

示例：調查緩慢的頁面加載

假設您的 Web 應用程序加載緩慢，您想知道原因。要使您的應用程序首先進入可用狀態(tài)，必須發(fā)生很多事情：對后端的多個請求，可能是一些工作 - 包括對數據庫或外部 API 的調用 - 在返回響應之前完成，并由瀏覽器處理以呈現所有將返回的數據轉化為對用戶有意義的內容。那么這個過程的哪一部分會減慢速度?

假設在這個簡化的示例中，當用戶在瀏覽器中加載應用程序時，每個服務中都會發(fā)生以下情況：

Browser(瀏覽器)
- HTML、CSS 和 JavaScript 各 1 個請求
- 1 次渲染任務，觸發(fā) 2 次 JSON 數據請求 ^
Backend(后端)
- 3 個提供靜態(tài)文件(HTML、CSS 和 JS)的請求
- 2 個 JSON 數據請求 - 1 個需要調用數據庫 - 1 個需要調用外部 API 并在將結果返回到前端之前處理結果^
Database Server(數據庫服務器)
- 1 查詢以檢查身份驗證
- 1 查詢獲取數據
- 1 個請求需要 2 次查詢

注意：外部 API 并未準確列出，因為它是外部的，因此您看不到它的內部。

在此示例中，整個頁面加載過程(包括上述所有過程)由單個 trace 表示。該跟蹤將由以下事務(transactions)組成：

1 個瀏覽器事務(用于頁面加載)
5 個后端事務(每個請求一個)
1 個數據庫服務器事務(用于單個 DB 請求)

每個事務將被分解為跨度(spans)如下：

瀏覽器頁面加載事務：7 個 span
- 2 個子 span，每個 JSON 請求一個
- 1 個根 span 代表整個頁面加載
- HTML、CSS 和 JS 請求各 1 個(共 3 個)
- 渲染任務的 1 個 span，它本身包含

讓我們在這里暫停一下以說明一個重點：此處列出的瀏覽器事務中的一些(盡管不是全部)跨度與前面列出的后端事務有直接對應關系。具體來說，瀏覽器事務中的每個請求跨度對應于后端中的一個單獨的請求事務。在這種情況下，當一個服務中的跨度引起后續(xù)服務中的事務時，我們將原始跨度稱為事務及其根跨度的父跨度。在下圖中，波浪線代表這種父子關系。

在我們的示例中，除了初始瀏覽器頁面加載事務之外的每個事務都是另一個服務中一個跨度的子項，這意味著除了瀏覽器事務根之外的每個根跨度都有一個父跨度(盡管在不同的服務中)。

在 fully-instrumented 的系統(其中每個服務都啟用了跟蹤的系統)中，這種模式將始終適用。唯一的無父 span 將是初始 transaction 的根;每隔一個 span 都會有一個父級。此外，parents 和 children 將始終生活在同一個服務中，除非在子 span 是子 transaction 的根的情況下，在這種情況下，父 span 將在調用服務中，而子 transaction/child 根 span 將在被調用服務中。

換句話說，一個 fully-instrumented 的系統創(chuàng)建一個跟蹤，它本身就是一個連接的樹——每個事務都是一個子樹——在這棵樹中，子樹/事務之間的邊界正是服務之間的邊界。上圖顯示了我們示例的完整跟蹤樹的一個分支。

現在，為了完整起見，回到我們的 spans：

后端 HTML/CSS/JS 請求事務：每個 1 個 span
- 代表整個請求的 1 個根跨度(瀏覽器跨度的子項)^
帶有數據庫調用事務的后端請求：2 個 span
- 1 個表示整個請求的根跨度(瀏覽器跨度的子項)
- 1 個跨度用于查詢數據庫(數據庫服務器事務的父級)^
帶有 API 調用事務的后端請求：3 個 span
- 1 個表示整個請求的根跨度(瀏覽器跨度的子項)
- API 請求的 1 個跨度(與數據庫調用不同，不是父跨度，因為 API 是外部的)
- 1 個跨度用于處理 API 數據^
數據庫服務器請求事務：3 個 span
- 1 個代表整個請求的根跨度(上面后端跨度的子項)
- 1 跨度用于身份驗證查詢
- 1 個跨度用于查詢檢索數據的

總結一下這個例子：在檢測了所有服務之后，您可能會發(fā)現——出于某種原因——是數據庫服務器中的身份驗證查詢(auth query)導致了速度變慢，占了完成整個頁面加載過程所需時間的一半以上。跟蹤無法告訴你為什么會發(fā)生這種情況，但至少現在你知道該去哪里找了!

數據采樣

當您在跟蹤設置中啟用采樣時，您可以選擇要發(fā)送到 Sentry 的已收集交易的百分比。例如，如果您有一個每分鐘接收 1000 個請求的端點，0.25 的采樣率將導致每分鐘大約 250 個事務 (25%) 被發(fā)送到 Sentry。(這個數字是近似的，因為每個請求要么被跟蹤，要么被獨立和偽隨機地跟蹤，概率為 25%。因此，以同樣的方式，100 個公平硬幣，在翻轉時會導致大約 50 個正面，SDK 將“決定” 在大約 250 個案例中收集跟蹤。)因為您知道采樣百分比，所以您可以推斷您的總流量。

在收集跟蹤時，我們建議對您的數據進行采樣，原因有兩個。首先，雖然捕獲單個跟蹤的開銷最小，但捕獲每個頁面加載或每個 API 請求的跟蹤可能會給您的系統增加不希望的負載量。其次，啟用采樣可以讓您更好地管理發(fā)送到 Sentry 的事件數量，以便您可以根據組織的需求對其進行定制。

選擇采樣率時，目標是不要收集太多數據(鑒于上述原因)，而是收集足夠的數據，以便得出有意義的結論。如果您不確定要選擇什么速率，我們建議從一個較低的值開始，并隨著您對流量模式和流量的了解逐漸增加，直到找到一個速率，使您能夠平衡性能和流量與數據準確性之間的關系。

跟蹤中的一致性

對于涉及多個事務的跟蹤，Sentry 使用 “基于頭部(head-based)” 的方法：在原始服務中做出采樣決策，然后將該決策傳遞給所有后續(xù)服務。要了解這是如何工作的，讓我們回到上面的 webapp示例。考慮兩個用戶 A 和 B，他們都在各自的瀏覽器中加載應用程序。當 A 加載應用程序時，SDK 偽隨機“決定”收集跟蹤，而當 B 加載應用程序時，SDK “決定”不收集跟蹤。當每個瀏覽器向您的后端發(fā)出請求時，它會在這些請求的標題中包含“yes, please collect transactions)”或“no, don't collect transactions this time”的決定。

當您的后端處理來自 A 瀏覽器的請求時，它會看到 “yes” 的決定，收集事務和跨度數據，并將其發(fā)送給 Sentry。此外，它在向后續(xù)服務(如您的數據庫服務器)發(fā)出的任何請求中都包含“yes”決定，這些服務同樣會收集數據，將數據發(fā)送給 Sentry，并將決定傳遞給它們調用的任何服務。通過這個過程，A的跟蹤中的所有相關事務都被收集并發(fā)送到 Sentry。

另一方面，當您的后端處理來自 B 瀏覽器的請求時，它會看到 “no” 決定，因此它不會收集和發(fā)送事務和跨度數據到 Sentry。然而，它在將決策傳播到后續(xù)服務方面做與在 A 的情況下所做的相同的事情，告訴他們也不要收集或發(fā)送數據。然后他們又告訴他們調用的任何服務不要發(fā)送數據，這樣就不會收集到來自 B 跟蹤的事務。

簡而言之：這種 head-based 的方法的結果是，決策在原始服務中作出一次，并傳遞給所有后續(xù)服務，要么收集給定跟蹤的所有事務，要么不收集任何事務，因此不應存在任何不完整的跟蹤。

責任編輯：武曉燕來源：黑客下午茶

監(jiān)控分布式跟蹤

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看