字節跳動開源Linux內核網絡抓包工具netcap

2024-08-22 14:47:50

在 Linux 內核網絡開發過程中，網絡丟包問題是一個常見的挑戰。字節跳動 STE 團隊基于此技術開發了下一代內核網絡抓包工具：netcap，并正式對外開源。

一、背景介紹

在 Linux 內核網絡開發過程中，網絡丟包問題是一個常見的挑戰。傳統的網絡抓包工具（如 tcpdump）雖然能夠幫助開發者定位問題，但其效率較低，且在深度網絡問題定位方面能力有限。隨著 eBPF 技術的快速發展，出現了更高級的問題跟蹤能力。字節跳動 STE 團隊基于此技術開發了下一代內核網絡抓包工具：netcap（net capture，內部原名：xcap），并正式對外開源，GitHub 地址：https://github.com/bytedance/netcap。

與 tcpdump 工具只能作用于內核網絡協議棧準備發包和收包的固定點相比，netcap 可以幾乎跟蹤整個內核網絡協議棧（有skb作為參數的函數）。字節跳動 STE 團隊使用 tcpdump 語法作為過濾條件，以 skb（socket buffer）為上下文，可以輕松掌握整個報文在內核網絡協議棧的完整蹤跡，從而幫助開發者大大提高內核網絡丟包問題的定位效率。

二、使用舉例

例1：查看 ip 10.227.0.45 的 icmp 包是否到達內核預期的函數調用點，這樣做的好處是：在定位排查網絡問題的時候，可以方便的縮小懷疑范圍，提高效率。

netcap skb -f icmp_rcv@1 -i eth0 -e "host 10.227.0.45" -t "-nnv"

其中 -f 后面的參數是 kprobe 或者 tracepoint 的具體函數（默認是kprobe），并且需要告訴 netcap，skb 在這個函數(本例是 icmp_rcv )的第幾個參數（從1開始），本例是第1個。

-i 后面是指skb的dev參數對應的網卡，這里要謹慎使用，因為有些函數的 skb 是沒有設置 dev 的。
-e 的參數是 tcpdump 的過濾語法。
-t 的參數是 tcpdump 的顯示方式，netcap 并沒有自己顯示數據包內容，而是借用了 tcpdump 的顯示方式。

例2：查看內核對于 tcp 端口 9000 的報文的丟包位置

netcap skb -f tracepoint:skb:kfree_skb -e "tcp port 9000" -S

其中 -f 后面的參數是 kprobe 或者 tracepoint 的具體函數，tracepoint 不需要傳遞 skb 是第幾個參數。

-S 表示連帶著打印出此調用的 stack，本例中通過 stack 可以看到是哪里丟包的。

舉個例子，在機器上配置一個丟包的 iptables 規則把來訪的 tcp 9000 的包丟掉，如下圖所示：

iptables -A INPUT -p tcp --dport 9000 -j DROP

然后使用 netcap上面的命令觀察丟包情況：

其它命令行參數可以通過閱讀開源代碼的 README 或命令 netcap help skb 來詳細了解。

三、設計與實現

主體框架

netcap 通過 kprobe / tracepoint 方式實現函數的 hook，通過函數參數獲取 skb 和 sock 關鍵結構體，拿到網絡包的數據，通過 bpf map 和用戶態進行數據傳遞。

實現原理

netcap 的工作原理大體如下：在 eBPF 程序中完成數據包的過濾，找出 tcpdump 語法過濾的包，然后把這個包給到 netcap 應用程序，netcap 應用程序再把這個包發去給 tcpdump 顯示，或者直接輸出 pcap 文件。如下圖所示：

1. 如何按 tcpdump 語法過濾

tcpdump 的過濾語法是基于 cBPF的，使用開源庫：https://github.com/cloudflare/cbpfc 這里可以把 tcpdump 的過濾語法轉化成一個 C 函數，這個 C 函數可以嵌入到 netcap 的 eBPF 的程序中。轉成 C 函數的基本原理如下：先利用 libpcap 庫把 tcpdump 過濾語法轉成 cBPF 指令碼，然后基于此指令碼轉化成 C 語言的函數。如下圖所示：

2. 如何把數據包內容用 tcpdump 顯示出來

netcap 程序啟動后，也會啟動一個 tcpdump 的程序，tcpdump 的標準輸入接收 pcap 格式的輸入流，然后以不同的參數（例如 -e 是顯示 mac 地址）從其標準輸出打印出解析后的格式。如下圖所示：

3. 如何找到數據包的內容

在內核中，是用 skb 來描述數據包的，找到 skb 中所指定的不同 header 的位置，就可以找到整個數據包，skb 的結構大體如下所示：

4. 發送方向數據包不完整，如何過濾數據包

在發送數據包的時候，例如 __ip_finish_output 函數，有時未填充完整的 eth頭、ip 頭、tcp 頭，那么是怎么得到完整的包呢？

netcap 會盡力根據 skb 的 sock 結構來推導，還原數據包，此時抓出來的包有些非關鍵信息會與實際情況不一致（比如 ip 頭的 id 字段）。skb 通過sock來推導數據包內容的邏輯大體如下圖所示：

四、其他用法及擴展

多Trace點匯總分析

netcap 可以統計數據包經過多個點的時間，然后匯總輸出，從而分析性能，舉個例子，使用下面的命令：

netcap skb -f tracepoint:net:netif_receive_skb,ip_local_deliver@1,ip_local_deliver_finish@3,icmp_rcv@1 -e "host 10.227.0.72 and icmp" -i eth0  --gather --gather-output-color cyan

可以觀察到輸出如下，根據到達 trace 點的時間，就能夠分析出數據包性能損耗在哪里，或者在哪里可能引入了延遲。

擴展功能

用戶可以自定義自己的過濾函數和輸出函數，這里舉例如下，

netcap skb -f icmp_rcv@1 -e "host 10.227.0.72" -i eth0 --user-filter skb_user_filter.c --user-action skb_user_action.c --user-output-color green

其中擴展過濾文件 skb_user_filter.c 如下：

// Return 0 means it's not need, pls filter out it.
static inline int xcap_user_filter(void *ctx, void *pkt, u16 trace_index) 
{
    return 1;
}

這個擴展函數的返回值如果是 0，表示在 tcpdump 語法的過濾后，再進行一次用戶自定義過濾，比如可以方便的寫幾行腳本，然后按照 skb->mark 來過濾。

其中擴展輸出文件 skb_user_action.c 如下：

struct  xcap_user_extend {
    int         a; // format: 0x%x
    uint32_t    b; // 


    int64_t     c;     
    uint8_t       x1; // format: %c
    uint8_t       x2; // format: 0x%x
    uint16_t      x3; // format: 0x%x
};


// Return 0 means not need to ouput
static inline int xcap_user_action(void *ctx, void *pkt, u32 pkt_len, struct xcap_user_extend *user, u16 trace_index)
{
    user->a = 0x12345678;
    user->b = 1000;
    user->c = 2002;
    user->x1 = 'M';
    user->x2 = 0x11;
    user->x3 = 0xabcd;


    return 1;
}

其中 struct xcap_user_extend 是用戶自定義的結構體，想輸出什么信息，就在這個結構體定義并賦值即可。結構體可支持的類型如下 (注:不支持指針，也不支持數組)：int8_t, uint8_t, char, int16_t, uint16_t, int, uint32_t,int64_t, uint64_t 。

這樣就可以附帶一些信息輸出了，如下圖：

五、未來展望

在開發者的日常工作中，網絡抓包工具成為了網絡工程師、測試工程師等必備的技能之一，字節跳動 STE 團隊開源的 netcap 網絡抓包工具，期望能夠幫助大家提高定位內核網絡丟包問題的效率，非常歡迎開發者們一起加入并貢獻 PR，共同推進開源項目發展。未來我們也將在以下幾個方向進行優化，敬請關注。

對 DPDK 的進一步支持，由于 usdt 的上游庫存在問題，故無法支持應用程序的 usdt，有興趣的讀者可以修改支持。
對多內核版本的統一支持。
在自定義輸出的時候，數據包較多的情況下，會出現打印錯亂，原因是 tcpdump 的輸出信息和用戶自定義的輸出信息共同使用了標準輸出，未來也將針對該問題做后續優化。

責任編輯：龐桂玉來源：字節跳動技術團隊

開源 Linux 網絡抓包工具

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看