探索 Ebpf 在 Node.Js 中的應用
前言
ebpf 是現代 Linux 內核提供的非常復雜和強大的技術,它使得 Linux 內核變得可編程,不再是完全的黑盒子。隨著 ebpf 的發展和成熟,其應用也越來越廣泛,本文介紹如何使用 ebpf 來追蹤 Node.js 底層的代碼。
介紹
ebpf 的設計思想雖然很簡單,但是實現和使用上非常復雜。ebpf 本質上內核實現了一個虛擬機,用戶可以把自己編寫的 c 代碼加載進內核中執行,從而參與內核的邏輯處理。這聽起來很簡單,但是整個技術其實非常復雜,從實現來說,內核需要對加載的代碼進行非常多而復雜的校驗,以保證安全性,內核還需要實現一個虛擬機來執行用戶的代碼和在內核代碼中加入支持 ebpf 機制的邏輯。從使用來說,使用或編寫 ebpf 代碼對我們來說成本非常高,我們需要學會搭建環境,需要了解如何編譯 ebpf 程序,甚至還需要了解 Linux 內核的一些知識。不過隨著 ebpf 多年的發展,這種情況已經改善了很多。ebpf 的介紹在網上有很多,這里就不多介紹。
使用
下面來看一下如何基于 libbpf 寫一個 ebpf 程序。ebpf 程序分為兩個部分,第一部分是 ebpf 代碼。hello.bpf.c
- #include <linux/bpf.h>
- #include <bpf/bpf_helpers.h>
- SEC("tracepoint/syscalls/sys_enter_execve")
- int handle_tp(void *ctx){
- int pid = bpf_get_current_pid_tgid()>> 32;
- char fmt[] = "BPF triggered from PID %d.\n";
- bpf_trace_printk(fmt, sizeof(fmt), pid);
- return 0;
- }
- char LICENSE[] SEC("license") = "Dual BSD/GPL";
以上是被加載進內核執行的代碼,主要是利用內核的 tracepoint 機制,給 sys_enter_execve 函數插入一個鉤子,每次執行到這個函數時,鉤子函數就會被執行。另一部分是負責把 ebpf 代碼加載進內核的代碼。hello.c
- #include <stdio.h>
- #include <stdlib.h>
- #include <string.h>
- #include <assert.h>
- #include <errno.h>
- #include <fcntl.h>
- #include <unistd.h>
- #include <sys/resource.h>
- #include <bpf/libbpf.h>
- #include "hello.skel.h"
- int main(int argc, char **argv){
- struct hello_bpf *skel;
- int err;
- /* Open BPF application */
- skel = hello_bpf__open();
- /* Load & verify BPF programs */
- err = hello_bpf__load(skel);
- /* Attach tracepoint handler */
- err = hello_bpf__attach(skel);
- printf("Hello BPF started, hit Ctrl+C to stop!\n");
- // output
- read_trace_pipe();
- cleanup:
- hello_bpf__destroy(skel);
- return -err;
- }
這里只列出核心的代碼,hello.c 的邏輯很簡單,打開 ebpf 然后加載到內核,最后查看 ebpf 程序的輸入。這就是 ebpf 程序的整體邏輯,過程都差不多,重點是確定我們需要做什么事情,然后寫不同的代碼。最后,如果不再需要追蹤的時候,可以銷毀 ebpf 代碼。
應用
在 ebpf 之前,內核對我們來說是一個黑盒子。有了 ebpf 之后,內核對我們透明了很多。但是軟件是分層的,我們平時直接和內核打交道并不多,我們更關心上層軟件的情況。具體來說,當我們使用一個 Node.js 的時候,除了關心業務代碼,我們也需要關心 Node.js 本身的代碼。但是 Node.js 對我們來說也是個黑盒子,我們不知道它具體做了什么事情或者某一個時刻的運行狀態,這樣非常不利于我們排查問題或者了解系統的運行情況。有了 ebpf 后,我們就可以做更多的事情了。Linux 內核提供了非常多的代碼追蹤技術,其中有一種是 uprobe,uprobe 是一種動態追蹤應用代碼的技術,比如我們想了解 Node.js 的 Libuv 中的 uv_tcp_listen 函數,那么我們就可以通過 ebpf 去實現這種效果。有了這種能力,我們就可以掌握系統更多的數據和信息。
實現
應用層使用 uprobe 比 kprobe 復雜,kprobe 是用于追蹤內核函數,因為內核知道它的函數對應的虛擬地址,所以我們只需要告訴它函數名就可以實現對該函數的追蹤,但是 uprobe 則不一樣,uprobe 是用于追蹤應用層代碼的,內核并不知道或者說不應該關注某個函數對應的虛擬地址,所以這個難題需要應用層解決。下面來看一下具體的實現。uprobe.bpf.c
- #include <linux/bpf.h>
- #include <linux/ptrace.h>
- #include <bpf/bpf_helpers.h>
- #include <bpf/bpf_tracing.h>
- #include "uv.h"
- char LICENSE[] SEC("license") = "Dual BSD/GPL";
- SEC("uprobe/uv_tcp_listen")
- int BPF_KPROBE(uprobe, uv_tcp_t* tcp, int backlog, uv_connection_cb cb){
- bpf_printk("uv_tcp_listen start %d \n", backlog);
- return 0;
- }
- SEC("uretprobe/uv_tcp_listen")
- int BPF_KRETPROBE(uretprobe, int ret){
- bpf_printk("uv_tcp_listen end %d \n", ret);
- return 0;
- }
這里我們實現了對 libuv 的 uv_tcp_listen 函數進行追蹤,包括函數開始執行和執行完畢兩個追蹤點。定義完 ebpf 程序后,來看一下如何加載到內核。uprobe.c
- int main(int argc, char **argv){
- struct uprobe_bpf *skel;
- long base_addr, uprobe_offset;
- int err, i;
- // 要追蹤的可執行文件
- char execpath[50] = "/usr/bin/node";
- char * func = "uv_tcp_listen";
- // 計算某個函數在可執行文件里的地址偏移
- uprobe_offset = get_elf_func_offset(execpath, func);
- /* Load and verify BPF application */
- skel = uprobe_bpf__open_and_load();
- /* Attach tracepoint handler */
- skel->links.uprobe = bpf_program__attach_uprobe(skel->progs.uprobe,
- false /* not uretprobe */,
- -1, /* any pid */
- execpath,
- uprobe_offset);
- skel->links.uretprobe = bpf_program__attach_uprobe(skel->progs.uretprobe,
- true /* uretprobe */,
- -1 /* any pid */,
- execpath,
- uprobe_offset);
- // ...
- cleanup:
- uprobe_bpf__destroy(skel);
- return -err;
- }
uprobe.c 的重點在于計算某個函數在某個可執行文件的地址信息,這個主要是利用 elf 文件來判斷,elf 是代碼編譯后生成的一個可執行文件,它里面可以記錄了關于可執行文件的一些元數據(也可以通過 readelf -Ws exen_file 查看),比如符號表里記錄了函數的信息,拿到相關信息后,設置 uprobe 和 uretprobe就可以了。通過上面的 ebpf 代碼,我們就可以追蹤到 uv_tcp_listen 函數的調用情況,有了這種能力,我們就可以隨便監聽自己想監聽的函數。除了 uprobe 之后,我們還可以利用內核的 kprobe 監聽內核函數。比如下面的 ebpf 代碼就可以實現對創建進程的追蹤。
- SEC("kprobe/__x64_sys_execve")
- int BPF_KPROBE(__x64_sys_execve){
- pid_t pid;
- pid = bpf_get_current_pid_tgid() >> 32;
- bpf_printk("KPROBE ENTRY pid = %d", pid);
- return 0;
- }
- SEC("kretprobe/__x64_sys_execve")
- int BPF_KRETPROBE(__x64_sys_execve_exit){
- pid_t pid;
- pid = bpf_get_current_pid_tgid() >> 32;
- bpf_printk("KPROBE EXIT: pid = %d\n", pid);
- return 0;
- }
總結
簡單地介紹了一下強大的 ebpf 技術和在 Node.js 中的應用,但是這只是個簡單的例子,我們還有很多事情需要做,比如能否結合 addon 來使用,如何支持動態能力等等。另外因為 C++ 代碼編譯后的函數名和原來的是不太一樣的,這可能會導致我們通過函數名找虛擬地址時找不到,這里也還有很多需要研究的地方。總的來說,ebpf 不僅對 Node.js 來說非常有價值,對其他應用層來說意義也是一樣的。這是一個非常值得探索的技術方向。
代碼倉庫:https://github.com/theanarkh/libbpf-code