內核調測工具Kprobe之原理篇
本文轉載自微信公眾號「人人都是極客」,作者布道師Peter。轉載本文請聯系人人都是極客公眾號。
上篇文章我們講了Kprobe的用法,這次我們一起看下其實現的原理。
在上次的模塊例子中插入dump_stack函數,獲得調用棧的情況,根據棧來反推其調用流程:
- Call trace:
- [<ffff00000808bd84>] dump_backtrace+0x0/0x268
- [<ffff00000808c00c>] show_stack+0x20/0x28
- [<ffff0000090e63e0>] dump_stack+0xb4/0xf0
- [<ffff00000168d0c8>] handler_pre+0x38/0x50 [kprobe_example]
- [<ffff000009103a14>] kprobe_breakpoint_handler+0x160/0x1d4
- [<ffff000008084fd0>] brk_handler+0x7c/0x90
- [<ffff000008081354>] do_debug_exception+0xa0/0x174
- Exception stack(0xffff000012f7bd40 to 0xffff000012f7be80)
- bd40: 0000000001200011 0000000000000000 0000000000000000 0000000000000000
- bd60: 0000f39a6ce05558 0000000000000000 0000f39a6ce05558 0000000000000073
- bd80: 00000000000000dc 0000000000000000 0000000000000000 0000000000000000
- bda0: 0000f39a6ce05558 0000000000000000 00000000ffffffff 0000fffffa1150d8
- bdc0: ffff0000080e1b40 0000f39a6c99fd10 0000000000000008 0000000000000000
- bde0: 0000000001200011 00000000ffffffff 0000f39a6c99fd30 0000000040000000
- be00: 0000000000000015 0000000000000124 00000000000000dc ffff000009122000
- be20: ffff8008f0385700 ffff000012f7be80 ffff0000080e1b84 ffff000012f7be80
- be40: ffff0000080e1620 0000000080000145 00000000ffffffff 6544f7a9c1a3c100
- be60: 0000ffffffffffff ffff000008083ac0 ffff000012f7be80 ffff0000080e1620
- [<ffff0000080830f0>] el1_dbg+0x18/0x74
- [<ffff0000080e1620>] _do_fork+0x0/0x414
可以看出流程為:el1_dbg->do_debug_exception->brk_handler->kprobe_breakpoint_handler->kprobe_handler->handler_pre
從上圖可以看出當中斷觸發時進入el1_sync,然后讀取esr_el1寄存器的值,并判斷異常的具體類型 ESR_ELx_EC_BREAKPT_CUR=0x31,即EC=110001,進入el1_dbg函數。根據EC=11000的類型我們知道觸發當前中斷的是breakpoint exception,如下所示:
那么問題來了,breakpoint指令是如何觸發的?搞清楚了這個問題也就理解了kprobe添加探針的本質。
替換breakpoint指令
先來看下kprobe的注冊流程:register_kprobe->arm_kprobe->__arm_kprobe->arch_arm_kprobe
- /* arm kprobe: install breakpoint in text */
- void __kprobes arch_arm_kprobe(struct kprobe *p)
- {
- patch_text(p->addr, BRK64_OPCODE_KPROBES);
- }
可以清晰看出這里把addr對應位置的指令修改為brk指令,一旦cpu執行到addr,就會觸發brk。從而進入上面說的中斷函數el1_sync,緊接著進入 kprobe_handler.
- static void __kprobes kprobe_handler(struct pt_regs *regs)
- {
- struct kprobe *p, *cur_kprobe;
- struct kprobe_ctlblk *kcb;
- unsigned long addr = instruction_pointer(regs);
- kcb = get_kprobe_ctlblk();
- cur_kprobe = kprobe_running();
- p = get_kprobe((kprobe_opcode_t *) addr); //根據pc值獲取kprobe
- if (p) {
- if (cur_kprobe) {
- if (reenter_kprobe(p, regs, kcb))
- return;
- } else {
- /* Probe hit */
- set_current_kprobe(p);
- kcb->kprobe_status = KPROBE_HIT_ACTIVE;//開始處理kprobe
- if (!p->pre_handler || !p->pre_handler(p, regs)) {
- setup_singlestep(p, regs, kcb, 0);
- return;
- }
- }
- ......
- }
可以看出kprobe_handler里先是進入pre_handler,然后通過setup_singlestep設置single-step相關寄存器,為下一步執行原指令時發生single-step異常做準備。
進入single-step
經過上面的步驟,pre_handler得到了執行,從異常態返回后,原指令也得到了執行,但是由于設置了single-step模式,所以執行完原指令后,馬上又進入了single-step的exception。流程為:el1_dbg->do_debug_exception->single_step_handler->kprobe_single_step_handler->post_kprobe_handler->post_handler
總結
至此,我們知道Kprobe實現的本質是breakpoint和single-step的結合,這一點和大多數調試工具一樣,比如kgdb/gdb。上面我們是從trace信息反推出來的執行流程,現在我們在從正面整理一下整個過程的來龍去脈:
- 注冊kprobe。注冊的每個kprobe對應一個kprobe結構體,該結構體記錄著插入點(位置),以及該插入點本來對應的指令original_opcode;
- 替換原有指令。使能kprobe的時候,將插入點位置的指令替換為一條異常(BRK)指令,這樣當CPU執行到插入點位置時會陷入到異常態;
- 執行pre_handler。進入異常態后,首先執行pre_handler,然后利用CPU提供的單步調試(single-step)功能,設置好相應的寄存器,將下一條指令設置為插入點處本來的指令,從異常態返回;
- 再次陷入異常態。上一步驟中設置了single-step相關的寄存器,所以original_opcode剛一執行,便會再次陷入異常態,此時將signle-step清除,并且執行post_handler,然后從異常態安全返回。
步驟2,3,4便是一次kprobe工作的過程,它的一個基本思路就是將本來執行一條指令擴展成執行kprobe->pre_handler--->原指令--->kprobe-->post_handler這樣三個過程。
由于考慮到放太多代碼不利于閱讀,本文并沒有詳細解讀代碼對上面流程的實現,感興趣的小伙伴可以自行閱讀,遇到問題可以留言或者群里討論,最后整理下代碼中涉及到的相關寄存器。
相關寄存器
PSTATE
PSTATE不是一個寄存器,它表示的是保存當前process狀態信息的一組寄存器或者一些標志位信息的統稱。
- 負數標志 Negative condition flag
- 零數標志 Zero condition flag
- 進位標志 Carry condition flag
- 溢出標志 Overflow condition flag
- D : debug exception MASK :Watchpoint, Breakpoint, and Software Step exceptions
- A : SError interrupt MASK
- I :IRQ interrupt MASK
- F :FIQ interrupt MASK
- EL, bits [3:2]
- 00 EL0
- 01 EL1
- 10 EL2
- 11 EL3
- SP, bit [0]
- 0 Use SP_EL0 at all Exception levels.
- 1 Use SP_ELx for Exception level ELx.
- PAN, bit [22] 特權訪問進制
- 0 Privileged reads and write are not disabled by this mechanism.
- 1 Disables privileged read and write accesses to addresses accessible at EL0 for an enabled stage 1 translation regime that defines the EL0 permissions
SPSR
當異常發生的時候,保存當前的PSTATE(CPSR)的狀態。
- PSTATE.{N, Z, C, V}:條件標志位,這些位的含義跟之前AArch32位一樣,分別表示補碼標志,運算結果為0標志,進位標志,帶符號位溢出標志.
- PSTATE.SS:異常發生的時候,通過設置 MDSCR_EL1.SS 為 1 啟動單步調試機制.
- PSTATE.IL:異常執行狀態標志,非法異常產生的時候,會設置這個標志位,會導致的事件.
- PSTATE.{D, A, I, F}:D表示debug異常產生,比如軟件斷點指令/斷點/觀察點/向量捕獲/軟件單步 等;A, I, F表示異步異常標志,異步異常會有兩種類型:一種是物理中斷產生的,包括SError(系統錯誤類型,包括外部數據終止),IRQ或者FIQ;另一種是虛擬中斷產生的,這種中斷發生在運行在EL2管理者enable的情況下:vSError,vIRQ,vFIQ;
MDSCR_EL1
Monitor Debug System Control Register