如何用幾行代碼免重啟修復應用程序BUG？（一）

作者：大U的技術課堂 2017-03-15 17:57:04

企業動態

UCloud生而為云，一直專注在云計算的泥潭里摸爬滾打，踩過數不清的坑，寫過數不清的BUG。所幸，在不斷的試錯中，也錘煉出一些能在江湖傍身的大殺器。這些經過千錘百煉的大殺器和寶貴的踩坑經驗，一起成為今天UCloud的核心科技。

引言

千呼萬喚始出來，從今天起，《UCloud技術大觀園》系列正式開張，撒花╭(●`∀´●)╯!

現在，我們將在《UCloud技術大觀園》系列里，把這些核心科技全部開放出來，毫無保留，逐一為大家講解，哪些坑是我們已經踩過的，引以為誡，哪些是優質的技術實踐經驗，值得借鑒。

我們始終相信——開放，才是技術的本心。

本篇作為《UCloud技術大觀園》系列的開篇，聚焦UCloud應用程序熱補丁技術，將介紹一種簡單實用的應用程序熱補丁技術。不少場景下，用該方法編寫幾行代碼即可免修復應用程序BUG!

那，我們開始吧~

前言

應用程序，作為核心業務組件，每天都面臨著嚴峻的高可用挑戰，每次重啟，都會導致服務受損。尤其是單點的虛擬化組件和有狀態的應用程序，一旦重啟，影響更甚。

熱補丁，一種在程序運行時動態修復內存中代碼bug的技術，能避免系統重啟導致的業務中斷、有效保證操作系統的可用性。

經過大量的研究和實踐，UCloud從0到1，自研了一套應用程序熱補丁技術。千錘百煉出真金，經過內部數十萬臺次修復驗證，UCloud應用程序熱補丁技術已自成體系，成為UCloud核心黑科技之一。

原理

一般來說，應用程序熱補丁的流程是，首先通過編譯器將熱補丁源碼制作成可加載的動態鏈接庫，然后通過加載程序將熱補丁加載到目標進程的地址空間，***在進行一致性模型檢查確認安全的情況下，把原始代碼替換成新的代碼，完成在線修復的過程。

下面我們分別介紹熱補丁本身和熱補丁加載程序，熱補丁本身是因patch而異的，加載程序是通用的。

假設我們有熱補丁加載程序Loader、目標進程T、熱補丁patch.so，目標程序的func函數替換為func_v2。

熱補丁

編寫熱補丁源碼，編譯成動態鏈接庫的格式的熱補丁patch.so，patch.so中包含func和func_v2的信息。
熱補丁patch.so在被加載程序Loader加載到目標進程T地址空間的過程中，通過dlsym調用找到func的地址，并將func的入口指令改為可寫，同時改變為跳轉到func_v2。
至此，所有對func的調用都會被重定向到func_v2，func_v2執行完畢后返回，程序繼續運行。
如圖所示：

熱補丁加載程序

加載程序Loader找到目標進程T的dlopen函數入口地址。
Loader通過ptrace依附到目標進程T，Loader將熱補丁的名字放入放入目標進程T的堆棧，將IP寄存器設置為dlopen函數的地址。
Loader使目標進程T繼續運行。因為IP寄存器已經設置為dlopen函數的入口，目標進程T會調用dlopen把熱補丁加載到T的地址空間中。
如圖所示：

了解原理之后，我們一步步實現一種簡單的基于x86_64的熱補丁。

(對于需要制作熱補丁的同學，只需自己編寫patch.so，而Loader是通用的。patch.so編寫可以參考下面的例子，往往只需幾行代碼做相應替換。)

實現

熱補丁

1.目標進程T執行dlopen的過程中，通過預先在熱補丁(動態鏈接庫)中寫入的constructor函數，在加載過程中函數func_v1替換函數func。

static void __attribute__((constructor)) init(void) 
 { 
     int numpages; 
     void *old_func_entry, *new_func_entry; 
 
     old_func_entry = dlsym(NULL, "func"); 
     new_func_entry = dlsym(NULL, "func_v2"); 
 
     #define PAGE_SHIFT              12 
     #define PAGE_SIZE               (1UL << PAGE_SHIFT) 
     #define PAGE_MASK               (~(PAGE_SIZE-1)) 
 
     numpages = (PAGE_SIZE - (old_func_entry & ~PAGE_MASK) >= size) ? 1 : 2; 
     mprotect((void *)(old_func_entry & PAGE_MASK), numpages * PAGE_SIZE, PROT_READ|PROT_WRITE|PROT_EXEC); 
 
     /* 
      * Translate the following instructions  
      *  
      * mov $new_func_entry, %rax  
      * jmp %rax  
      *  
      * into machine code  
      *  
      * 48 b8 xx xx xx xx xx xx xx xx  
      * ff e0  
      */ 
     memset(old_func_entry, 0x48, 1); 
     memset(old_func_entry + 1, 0xb8, 1);  
     memcpy(old_func_entry + 2, &new_func_entry, 8);  
     memset(old_func_entry + 10, 0xff, 1); 
     memset(old_func_entry + 11, 0xe0, 1); 
 }

熱補丁加載程序

1.Loader得到目標進程T地址空間中dlopen入口地址

1.1. dlopen函數有libdl提供，并不是所有的程序都加載libdl，幸運的是，libc中提供了同樣功能的函數libc_dlopen_mode，并且接受的參數和dlopen相同。除非特殊情況，所有程序都會加載libc。所以我們需要找到libc_dlopen_mode在目標進程T地址空間中的函數入口地址。

1.2. 我們知道，不同進程中libc會被加載到不同的基地址，但是libc中函數的地址相對基地址的偏移是不變的。

1.3. 通過Loader和目標進程T的/proc/pid/maps，我們可以得到libc在Loader和目標進程T中加載的基地址。通過Loader運行dlsym，我們可以得到Loader中的libc_dlopen_mode的地址。這樣我們可以得到目標進程T中libc_dlopen_mode的地址(Loader_dlopen - Loader_libc + T_libc)。

/ Take a hint and find start addr in /proc/pid/maps / 
  static unsigned long find_lib_base(pid_t pid, char *so_hint) 
  { 
  FILE *fp; 
  char maps[4096], mapbuf[4096], perms[32], libpath[4096]; 
  char *libname; 
  unsigned long start, end, file_offset, inode, dev_major, dev_minor; 
 
  sprintf(maps, "/proc/%d/maps", pid); 
  fp = fopen(maps, "rb"); 
  if (!fp) { 
          fprintf(stderr, "Failed to open %s: %s\n", maps, strerror(errno)); 
          return 0; 
  } 
 
  while (fgets(mapbuf, sizeof(mapbuf), fp)) { 
          sscanf(mapbuf, "%lx-%lx %s %lx %lx:%lx %lu %s", &start, 
                  &end, perms, &file_offset, &dev_major, &dev_minor, &inode, libpath); 
 
          libname = strrchr(libpath, '/'); 
          if (libname) 
                  libname++; 
          else 
                  continue; 
 
          if (!strncmp(perms, "r-xp", 4) && strstr(libname, so_hint)) { 
                  fclose(fp); 
                  return start; 
          } 
  } 
 
  fclose(fp);   return 0;  
  } 
  loader_libc = find_lib_base(getpid(), “libc-c”); 
  T_libc = find_lib_base(T_pid, “libc-“); 
  Loader_dlopen = (unsigned long)dlsym(NULL, “__libc_dlopen_mode”); 
  T_dlopen = T_libc + (Loader_dlopen - Loader_libc);

2.Loader對目標進程T使用ptrace attach，并保存T此時的寄存器信息。

static int ptrace_attach(pid_t pid) 
  { 
  int status; 
 
  if (ptrace(PTRACE_ATTACH, pid, NULL, NULL)) { 
          fprintf(stderr, "Failed to ptrace_attach: %s\n", strerror(errno)); 
          return 1; 
  } 
 
  if (waitpid(pid, &status, __WALL) < 0) { 
          fprintf(stderr, "Failed to wait for PID %d, %s\n", pid, strerror(errno)); 
          return 1; 
  } 
  return 0; 
} 
  static int ptrace_call(pid_t pid, unsigned long func_addr, unsigned long arg1, unsigned long arg2, unsigned long *func_ret) 
  { 
  … 
  memset(&saved_regs, 0, sizeof(struct user_regs_struct)); 
  ptrace_getregs(pid, &saved_regs); 
 
  … 
  }

3.將目標進程T的%RIP指向dlopen，熱補丁的名字的字符串放入堆棧，字符串的地址寫入%rdi，RTLD_NOW的值寫入%rsi作為dlopen的flag。同時把dlopen返回地址設置為非法地址0x0(把0x0壓入棧中)，這樣Loader可以捕獲目標進程T產生的SIGSEGV信號進而重新獲得T的控制權。

unsigned long invalid = 0x0; 
 regs.rsp -= sizeof(invalid); 
 ptrace_poketext(pid, regs.rsp, ((void *)&invalid), sizeof(invalid)); 
 ptrace_poketext(pid, regs.rsp + 512, filename, strlen(filename) + 1); 
 regs.rip = dlopen_addr; 
 regs.rdi = regs.rsp + 512; 
 regs.rsi = RTLD_NOW; 
 ptrace_setregs(pid, &regs);

4.Loader使目標進程T繼續運行。當T執行完dlopen之后，T產生的SIGSEGV信號被Loader捕獲，Loader重新獲得T進程的控制權。

static int ptrace_cont(pid_t pid) 
 
{int status; 
 
if (ptrace(PTRACE_CONT, pid, NULL, 0)) { 
 
fprintf(stderr, "Failed to ptrace_cont: %s\n", strerror(errno));return 1; 
 
} 
 
if (waitpid(pid, &status, __WALL) < 0) {fprintf(stderr, "Failed to wait for PID %d, %s\n", pid, strerror(errno)); 
 
return 1;} 
return 0;}

5. Loader通過讀取目標進程T此時的%rax寄存器得到dlopen的返回值，恢復T最開始的執行狀態，***釋放對T的控制

ptrace_getregs(pid, &regs); 
  dlopen_ret = regs.rax; 
  ptrace_setregs(pid, &saved_regs); 
  ptrace_detach(pid);

至此對目標進程T的熱補丁就完成了。下面我們看一個例子。

驗證

假設我們運行target程序，每隔一秒打印Hello一次:

# ./target 
Hello 
Hello 
… 
target程序由tar

target程序由target本身和libold.so組成，分別代碼如下：

/* target.c */ 
#include <unistd.h> 
#include "old.h" 
 
int main() { 
    for (;;) { 
        print(); 
        sleep(1); 
    } 
} 
 
/* old.c */ 
#include <stdio.h> 
 
void print(void) 
{ 
    printf("Hello\n"); 
}

編譯

gcc -fPIC --shared old.c -o libold.so  
gcc target.c ./libold.so -o target

我們想要修改print函數，變成打印“Goodbye”。我們需要編寫熱補丁new.c，并添加新函數和constructor：

/* new.c */ 
#include <stdio.h> 
    #include <string.h>  
#include <sys/mman.h>  
#include <dlfcn.h>  
 
print_v2(void) 
{ 
    printf("Goodbye\n"); 
} 
 
static void __attribute__((constructor)) init(void) 
{  
    int numpages; 
    void *old_func_entry, *new_func_entry; 
 
    old_func_entry = dlsym(NULL, print); 
    new_func_entry = dlsym(NULL, print_v2); 
 
    #define PAGE_SHIFT              12  
    #define PAGE_SIZE               (1UL << PAGE_SHIFT)  
    #define PAGE_MASK               (~(PAGE_SIZE-1)) 
 
    numpages = (PAGE_SIZE - (old_func_entry & ~PAGE_MASK) >= size) ? 1 : 2; 
    mprotect((void *)(old_func_entry & PAGE_MASK), numpages * PAGE_SIZE, PROT_READ|PROT_WRITE|PROT_EXEC); 
    memset(old_func_entry, 0x48, 1); 
    memset(old_func_entry + 1, 0xb8, 1);  
    memcpy(old_func_entry + 2, &new_func_entry, 8);  
    memset(old_func_entry + 10, 0xff, 1); 
    memset(old_func_entry + 11, 0xe0, 1); 
}

編譯：

gcc -fPIC --shared new.c -ldl -o libnew.so

然后通過加載程序對target進程打入熱補丁libnew.so，***我們對target程序打入這個熱補丁，觀察變化：

# ./target 
Hello 
Hello 
Goodbye 
Goodbye 
…

我們發現熱補丁確實改變了print函數，***通過gdb進一步確認，可以看出print函數的入口被修改成48 b8 dc b6 15 a9 c1 7f 00 00 ff e0，與我們的預期相符：

(gdb) disas /r print 
Dump of assembler code for function print: 
   0x00007fc1a98f456c <+0>:     48 b8 dc b6 15 a9 c1 7f 00 00   movabs $0x7fc1a915b6dc,%rax 
   0x00007fc1a98f4576 <+10>:    ff e0   jmpq   *%rax # 這里print在入口處跳轉到0x7fc1a915b6dc這個地址 
… 
(gdb) info symbol 0x7fc1a915b6dc 
print_v2 in section .text of /root/process-hotupgrade/test/libnew.so # 0x7f2ea417971c這個地址就是print_v2函數的地址

總結

我們介紹了應用程序熱補丁的基本原理，實踐了一個應用程序熱補丁demo。此類熱補丁適用于動態替換共享鏈接庫中的可見函數，可以修復例如glibc “GHOST漏洞”(CVE-2015-0235)等等，在UCloud我們利用熱補丁修復了若干缺陷，在用戶沒有感知的情況下把bug快速及時的修復。這些熱補丁修復程序里，絕大多數代碼是通用的，只需少數幾行做特殊替換。

上文介紹的熱補丁技術對于適用的場景非常理想，簡單可靠，但存在幾個缺點：

手寫熱補丁代碼門檻較高，特別是被修復函數的依賴函數鏈較長時手寫熱補丁很容易出錯
無法修復局部函數和局部變量(只能修復全局可見的函數和變量)

【本文是51CTO專欄機構作者“大U的技術課堂”的原創文章，轉載請通過微信公眾號(ucloud2012)聯系作者】

戳這里，看該作者更多好文

責任編輯：武曉燕來源： 51CTO專欄

代碼免重啟 BUG

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何用幾行代碼免重啟修復應用程序BUG？（一）