成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DEX文件格式分析

移動開發 Android
前段時間忙于破解移動和電信的 apk ,挺久沒有更新博客了,最近在寫個工具,主要功能是通過配置對 dex 文件中的類型、函數、屬性進行隱藏,達到防止被靜態分析的效果。所以在寫工具前必須對 dex 的文件格式有個清晰的認識,相對于 elf 文件格式 dex 文件格式會簡單一些。

前段時間忙于破解移動和電信的 apk ,挺久沒有更新博客了,最近在寫個工具,主要功能是通過配置對 dex 文件中的類型、函數、屬性進行隱藏,達到防止被靜態分析的效果。所以在寫工具前必須對 dex 的文件格式有個清晰的認識,相對于 elf 文件格式 dex 文件格式會簡單一些。

原文鏈接: DEX文件格式分析

0x00 前言

分析 dex 文件格式最好的方式是找個介紹文檔,自己再寫一個簡單的 demo 然后用 010Editor 對照著分析。文檔可以參考官方文檔http://source.android.com/devices/tech/dalvik/dex-format.html,英文差的也可以找個中文的,比如說我。。。。。。

010Editor 這個工具比較好用,之前分析 elf 文件也是用的它。其實只要裝了模板,可以分析很多文件。雖然是收費軟件,有30天免費試用。但是如果你用的是 mac 😏 試用期到了, 刪一下這個文件 🙄 ~/.config/SweetScape/010 Editor.ini。

0x01 文件布局

dex 文件可以分為3個模塊,頭文件(header)、索引區(xxxx_ids)、數據區(data)。頭文件概況的描述了整個 dex 文件的分布,包括每一個索引區的大小跟偏移。索引區的ids 是 identifiers 的縮寫,表示每個數據的標識,索引區主要是指向數據區的偏移。 

 

010Editor 中除了數據區(data)沒有顯示出來,其他區段都有顯示,另外 link_data 在模板中被定為 map_list 

 

 

 

0x02 header

header 描述了 dex 文件信息,和其他各個區的索引。010Editor(寫010Editor 有點麻煩下面直接寫010)中用結構體 struct header_item 來描述 header。 

 

 

 

其中用到了兩種數據類型char、uint。這里的 char 是 C/C++ 中的char 占 8-bit, java 中的 char 是占 16-bit 有點區別,但是我們可以他來表示 short/ushort 這個以后介紹最近寫的工具會介紹。官方文檔是用 ubyte來定義的,那還是按官方的來吧。結構體描述:

  1. ubyte 8-bit unsinged int 
  2. uint  32-bit unsigned int, little-endian 
  3.  
  4. struct header_item  
  5.     ubyte[8]  magic; 
  6.     unit      checksum;  
  7.     ubyte[20] signature;  
  8.     uint      file_size;  
  9.     uint      header_size;  
  10.     unit      endian_tag;  
  11.     uint      link_size;  
  12.     uint      link_off;  
  13.     uint      map_off; 
  14.     uint      string_ids_size;  
  15.     uint      string_ids_off;  
  16.     uint      type_ids_size;  
  17.     uint      type_ids_off;  
  18.     uint      proto_ids_size;  
  19.     uint      proto_ids_off;  
  20.     uint      method_ids_size;  
  21.     uint      method_ids_off;  
  22.     uint      class_defs_size;  
  23.     uint      class_defs_off;  
  24.     uint      data_size; 
  25.     uint      data_off;  

 除了 magic、checksum、signature、file_size、endian_tag、map_off 其他元素都是成對出現的。_off 表示元素的偏移量,_size 表示元素的個數。其余的6個描述主要是 dex 文件的信息。

  • magic: 這個是固定值,用于識別 dex 文件。轉化為字符串為:
  1. {0x64, 0x65, 0x78, 0x0A, 0x30, 0x33, 0x35, 0x00} = "dex\n035\0" 

中間是一個換行,后面035是版本號。

  • checksum: 文件校驗碼,使用 alder32 算法校驗文件除去 maigc、checksum 外余下的所有文件區域,用于檢 查文件錯誤。
  • signature: 使用 SHA-1 算法 hash 除去 magic、checksum 和 signature 外余下的所有文件區域, 用于唯一識別本文件 。
  • file_size: dex 文件大小
  • header_size: header 區域的大小,目前是固定為 0x70
  • endian_tag: 大小端標簽,dex 文件格式為小端,固定值為 0x12345678 常量
  • map_off: map_item 的偏移地址,該 item 屬于 data 區里的內容,值要大于等于 data_off 的大小,處于 dex 文件的末端。

0x03 string_ids

string_ids 區段描述了 dex 文件中所有的字符串。格式很簡單只有一個偏移量,偏移量指向了 string_data 區段的一個字符串: 

 

 

 

上述描述里提到了 LEB128 ( little endian base 128 ) 格式,是基于 1 個 byte 的一種不定長度的編碼方式。若第一個 byte 的最高位為1,則表示還需要下一個 byte 來描述,直至最后一個 byte 的最高位為 0。每個 byte 的其余 bit 用來表示數據,如下表所示。實際中 LEB128 最大只能達到 32-bit 可以閱讀 dalvik 中的Leb128.h源碼看出來。 

 

 

 

數據結構為:

  1. ubyte    8-bit unsinged int 
  2. uint     32-bit unsigned int, little-endian 
  3. uleb128  unsigned LEB128, valriable length 
  4.  
  5. struct string_ids_item 
  6.     uint string_data_off; 
  7.  
  8. struct string_data_item  
  9.     uleb128 utf16_size; 
  10.     ubyte   data;  

 其中 data 保存的就是字符串的值。string_ids 是比較關鍵的,后續的區段很多都是直接指向 string_ids 的 index。在寫工具進行比較的時候也需要提取到 string_id

0x04 type_ids

type_ids 區索引了 dex 文件里的所有數據類型,包括 class 類型,數組類型(array types)和基本類型(primitive types)。區段里的元素格式為 type_ids_item,結構描述如下 :

  1. uint 32-bit unsigned int, little-endian 
  2.  
  3. struct type_ids_item 
  4.     uint descriptor_idx;  //-->string_ids 

 type_ids_item 里面 descriptor_idx 的值的意思,是 string_ids 里的 index 序號,是用來描述此 type 的字符串。

0x05 proto_ids

proto 的意思是 method prototype 代表 java 語言里的一個 method 的原型 。proto_ids 里的元素為 proto_id_item,結構如下:

  1. uint 32-bit unsigned int, little-endian  
  2.  
  3. struct proto_id_item 
  4.     uint shorty_idx;        //-->string_ids 
  5.     uint return_type_idx;    //-->type_ids 
  6.     uint parameters_off; 
  7.  
  • shorty_idx: 跟 type_ids 一樣,它的值是一個 string_ids 的 index 號 ,最終是一個簡短的字符串描述,用來說明該 method 原型。
  • return_type_idx: 它的值是一個 type_ids 的 index 號 ,表示該 method 原型的返回值類型。
  • parameters_off: 指向 method 原型的參數列表 type_list,若 method 沒有參數,值為0。參數列表的格式是 type_list,下面會有描述。

0x06 field_ids

filed_ids 區里面有 dex 文件引用的所有的 field。區段的元素格式是 field_id_item,結構如下:

  1. ushort 16-bit unsigned int, little-endian  
  2. uint   32-bit unsigned int, little-endian  
  3.  
  4. struct filed_id_item 
  5.     ushort class_idx;  //-->type_ids 
  6.     ushort type_idx;   //-->type_ids 
  7.     uint   name_idx;   //-->string_ids 
  8.  
  • class_idx: 表示 field 所屬的 class 類型,class_idx 的值是 type_ids 的一個 index,并且必須指向一個 class 類型。
  • type_idx: 表示本 field 的類型,它的值也是 type_ids 的一個 index 。
  • name_idx: 表示本 field 的名稱,它的值是 string_ids 的一個 index 。

0x07 method_ids

method_ids 是索引區的最后一個條目,描述了 dex 文件里的所有的 method。method_ids 的元素格式是 method_id_item,結構跟 fields_ids 很相似:

  1. ushort 16-bit unsigned int, little-endian  
  2. uint   32-bit unsigned int, little-endian  
  3.  
  4. struct filed_id_item 
  5.     ushort class_idx;  //-->type_ids 
  6.     ushort proto_idx;   //-->proto_ids 
  7.     uint   name_idx;   //-->string_ids 
  8.  
  • class_idx: 表示 method 所屬的 class 類型,class_idx 的值是 type_ids 的一個 index,并且必須指向一個 class 類型。<font color=red>ushort類型也是為什么我們說一個 dex 只能有 65535 個方法的原因,多了必須分包</font>。
  • proto_idx: 表示 method 的類型,它的值也是 type_ids 的一個 index。
  • name_idx: 表示 method 的名稱,它的值是 string_ids 的一個 index。

0x08 class_defs

class_def 區段主要是對 class 的定義,它的結構很復雜,看的我有點暈,一層套一層。先看一張 010 的結構圖: 

 

 

 

看著都暈,別說解析的時候了。

class_def_item

class_def_item 結構描述如下:

  1. uint   32-bit unsigned int, little-endian 
  2.  
  3. struct class_def_item 
  4.     uint class_idx;         //-->type_ids    
  5.     uint access_flags;         
  6.     uint superclass_idx;    //-->type_ids 
  7.     uint interface_off;     //-->type_list 
  8.     uint source_file_idx;    //-->string_ids 
  9.     uint annotations_off;    //-->annotation_directory_item 
  10.     uint class_data_off;    //-->class_data_item 
  11.     uint static_value_off;    //-->encoded_array_item 
  12.  
  • class_idx: 描述具體的 class 類型,值是 type_ids 的一個 index 。值必須是一個 class 類型,不能是數組類型或者基本類型。
  • access_flags: 描述 class 的訪問類型,諸如 public , final , static 等。在 dex-format.html 里 "access_flags Definitions" 有具體的描述 。
  • superclass_idx: 描述 supperclass 的類型,值的形式跟 class_idx 一樣 。
  • interfaces_off: 值為偏移地址,指向 class 的 interfaces,被指向的數據結構為 type_list 。class 若沒有 interfaces 值為 0。
  • source_file_idx: 表示源代碼文件的信息,值是 string_ids 的一個 index。若此項信息缺失,此項值賦值為 NO_INDEX=0xffff ffff。
  • annotions_off: 值是一個偏移地址,指向的內容是該 class 的注釋,位置在 data 區,格式為 annotations_direcotry_item。若沒有此項內容,值為 0 。
  • class_data_off: 值是一個偏移地址,指向的內容是該 class 的使用到的數據,位置在 data 區,格式為 class_data_item。若沒有此項內容值為 0。該結構里有很多內容,詳細描述該 class 的 field、method, method 里的執行代碼等信息,后面會介紹class_data_item。
  • static_value_off: 值是一個偏移地址 ,指向 data 區里的一個列表 (list),格式為 encoded_array_item。若沒有此項內容值為 0。

type_list

type_list 在 data 區段,class_def_item->interface_off 就是指的這里的數據。數據結構如下:

  1. uint   32-bit unsigned int, little-endian 
  2.  
  3. struct type_list 
  4.     uint       size
  5.     type_item  list [size]  
  6.  
  7. struct type_item 
  8.     ushort type_idx   //-->type_ids 
  9.  
  • size: 表示類型個數
  • type_idx: 對應一個 type_ids 的 index

annotations_directory_item

class_def_item->annotations_off 指向的數據區段,定義了 annotation 相關的數據描述,數據結構如下:

  1. uint   32-bit unsigned int, little-endian 
  2.  
  3. struct annotation_directory_item 
  4.     uint class_annotations_off;        //-->annotation_set_item 
  5.     uint fields_size; 
  6.     uint annotated_methods_size; 
  7.     uint annotated_parameters_size; 
  8.      
  9.     field_annotation field_annotations[fields_size]; 
  10.     method_annotation method_annotations[annotated_methods_size]; 
  11.     parameter_annotation parameter_annotations[annotated_parameters_size]; 
  12.  
  13. struct field_annotation 
  14.     uint field_idx; 
  15.     uint annotations_off;    //-->annotation_set_item 
  16.  
  17. struct method_annotation 
  18.     uint method_idx; 
  19.     uint annotations_off;    //-->annotation_set_item 
  20.  
  21. struct parameter_annotation 
  22.     uint method_idx; 
  23.     uint annotations_off;    //-->annotation_set_ref_list 
  24.  
  • class_annotations_off: 這個偏移指向了 annotation_set_item 具體的可以看 dex-format.html 上的介紹。
  • fields_size: 表示屬性的個數
  • annotated_methods_size: 表示方法的個數
  • annotated_parameters_size: 表示參數的個數

class_data_item

class_data_off 指向 data 區里的 class_data_item 結構,class_data_item 里存放著本 class 使用到的各種數據,下面是 class_data_item 的結構 :

  1. uleb128 unsigned little-endian base 128  
  2.  
  3. struct class_data_item 
  4.     uleb128 static_fields_size; 
  5.     uleb128 instance_fields_size; 
  6.     uleb128 direct_methods_size; 
  7.     uleb128 virtual_methods_size; 
  8.  
  9.     encoded_field  static_fields[static_fields_size]; 
  10.     encoded_field  instance_fields[instance_fields_size]; 
  11.     encoded_method direct_methods[direct_methods_size]; 
  12.     encoded_method virtual_methods[virtual_methods_size]; 
  13.  
  14. struct encoded_field 
  15.     uleb128 filed_idx_diff;  
  16.     uleb128 access_flags;   
  17.  
  18. struct encoded_method 
  19.     uleb128 method_idx_diff;  
  20.     uleb128 access_flags;  
  21.     uleb128 code_off; 
  22.  

class_data_item

  • static_fields_size: 靜態成員變量的個數
  • instance_fields_size: 實例成員變量個數
  • direct_methods_size: 直接函數個數
  • virtual_methods_size: 虛函數個數

下面幾個就是對于的描述

encoded_field

  • method_idx_diff: 前綴 methd_idx 表示它的值是 method_ids 的一個 index ,后綴 _diff 表示它是于另 外一個 method_idx 的一個差值 ,就是相對于 encodeed_method [] 數組里上一個元素的 method_idx 的差值 。 其實 encoded_filed - > field_idx_diff 表示的也是相同的意思 ,只是編譯出來的 Hello.dex 文件里沒有使用到 class filed 所以沒有仔細講 ,詳細的參考 dex_format.html 的官網文檔。
  • access_flags: 訪問權限,比如 public、private、static、final 等。
  • code_off: 一個指向 data 區的偏移地址,目標是本 method 的代碼實現。被指向的結構是code_item,有近 10 項元素。

code_item

code_item 結構里描述著某個 method 的具體實現,它的結構描述如下:

  1. struct code_item  
  2.     ushort                         registers_size; 
  3.     ushort                         ins_size; 
  4.     ushort                         outs_size; 
  5.     ushort                         tries_size; 
  6.     uint                         debug_info_off; 
  7.     uint                         insns_size; 
  8.     ushort                         insns [insns_size];  
  9.     ushort                         paddding;             // optional 
  10.     try_item                     tries [tyies_size]; // optional 
  11.     encoded_catch_handler_list  handlers;             // optional 
  12.  

末尾的 3 項標志為 optional , 表示可能有 ,也可能沒有 ,根據具體的代碼來。

  • registers_size: 本段代碼使用到的寄存器數目。
  • ins_size: method 傳入參數的數目 。
  • outs_size: 本段代碼調用其它 method 時需要的參數個數 。
  • tries_size: try_item 結構的個數 。
  • debug_off: 偏移地址,指向本段代碼的 debug 信息存放位置,是一個 debug_info_item 結構。
  • insns_size: 指令列表的大小,以 16-bit 為單位。 insns 是 instructions 的縮寫 。
  • padding: 值為 0,用于對齊字節 。
  • tries 和 handlers: 用于處理 java 中的 exception,常見的語法有 try catch。

encoded_array_item

class_def_item->static_value_off 偏移指向該區段數據。

  1. uleb128  unsigned LEB128, valriable length 
  2.  
  3. struct encoded_array_item 
  4.     encoded_array value; 
  5.  
  6. struct encoded_array 
  7. {     
  8.     uleb128 size
  9.     encoded_value values[size]; 
  10.  
  • size : 表示encoded_value 個數
  • encoded_value: 這個我也沒分析出來怎么搞得🙄

0x09 map_list

map_list 中大部分 item 跟 header 中的相應描述相同,都是介紹了各個區的偏移和大小,但是 map_list 中描述的更加全面,包括了 HEADER_ITEM 、TYPE_LIST、STRING_DATA_ITEM、DEBUG_INFO_ITEM 等信息。

010 中map_list 表示為: 

 

 

 

數據結構為:

  1. ushort 16-bit unsigned int, little-endian 
  2. uint   32-bit unsigned int, little-endian 
  3.  
  4. struct map_list  
  5.     uint     size
  6.     map_item list [size];  
  7. struct map_item  
  8.     ushort type;  
  9.     ushort unuse;  
  10.     uint   size;  
  11.     uint   offset; 
  12.  

map_list 里先用一個 uint 描述后面有 size 個 map_item,后續就是對應的 size 個 map_item 描述。 map_item 結構有 4 個元素: type 表示該 map_item 的類型,Dalvik Executable Format 里 Type Code 的定義; size 表示再細分此 item,該類型的個數;offset 是第一個元素的針對文件初始位置的偏移量; unuse 是用對齊字節的,無實際用處。 

 

 

責任編輯:龐桂玉 來源: segmentfault
相關推薦

2024-03-17 19:14:28

2012-05-29 09:06:32

Hadoop文件格式

2012-05-29 09:48:21

Hadoop

2023-11-02 09:54:21

ODT文件

2021-09-29 15:52:26

計算機配置文件語言

2009-06-20 09:21:37

UNIXLINUX

2017-08-01 21:24:40

深度學習醫療影像文件格式

2017-08-25 17:41:17

Paradox數據文件格式

2010-08-03 15:40:30

NFS文件格式

2009-07-20 09:44:31

DB2外部文件格式

2009-08-05 10:57:17

ASP.NET配置文件配置文件格式

2017-06-16 09:58:34

Hive格式壓縮算法

2017-02-17 10:29:19

AndroidJava文件加密

2010-08-02 11:38:43

DB2外部文件格式

2009-06-02 14:12:26

Hibernate配置文件格式

2019-11-18 09:00:10

大數據數據格式文件格式

2022-07-02 15:06:06

Pandoc文件Markdown

2011-09-13 18:09:15

Eclipse And

2010-11-03 15:15:26

DB2數據移動

2023-10-19 15:35:44

.NET轉換工具開發
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美三级免费观看 | 欧美一区视频在线 | 视频在线观看一区二区 | 不卡在线视频 | 国产福利91精品 | 精品综合 | 亚洲精品乱码久久久久v最新版 | aaa一区| 九色网址| 毛片1 | 亚洲人成人一区二区在线观看 | 日韩精品免费一区二区在线观看 | 亚洲影视在线 | 欧洲一区二区三区 | 成人影视网址 | 91综合网 | 日韩一区二区三区在线视频 | 日一区二区 | 国产ts人妖一区二区三区 | 久久噜噜噜精品国产亚洲综合 | 亚洲社区在线 | 99re在线| 91av视频在线免费观看 | 国产精品小视频在线观看 | 91精品国产综合久久久久久 | a黄视频 | 亚洲理论在线观看电影 | 视频1区2区 | 成人午夜精品 | 国产精品国产成人国产三级 | 久久综合一区二区 | 久久免费精品 | 99久久国产免费 | 久草新视频| 久久人爽 | 日韩精品一区二区三区中文在线 | 国产电影一区二区三区爱妃记 | 五月天国产视频 | 亚洲午夜视频 | 国产高清免费 | avmans最新导航地址 |