• Android Dex文件格式解析


    Dex文件是Android虚拟机下的可执行文件,包含了应用程序所用到所有操作指令和运行时数据。在程序编译过程中,java源文件先被编译成class文件,然后通过dx工具将多个class文件整合为一个dex文件。这样的文件结构使得各个类能够共享数据,充分减少了存储空间,提升了运行效率。

    Java源文件生成Dex文件的映射关系。

    dex文件的结构如下图:

    我们可以在android源码中的/dalvik/libdex/DexFile.h找到关于dexfile的定义。
    Andre

    这里定义的DexFile是dex文件被映射到内存中的结构,出了基本的dex文件结构外,还包含了DexOptHead和尾部附加的数据,这些数据是Android系统为了结合当前平台特性对dex文件的结构进行了优化和扩充,是运行效率更高。

    /*
     * Structure representing a DEX file.
     *
     * Code should regard DexFile as opaque, using the API calls provided here
     * to access specific structures.
     */
    typedef struct DexFile {
        /* directly-mapped "opt" header */
        const DexOptHeader* pOptHeader;
    
        /* pointers to directly-mapped structs and arrays in base DEX */
        const DexHeader*    pHeader;
        const DexStringId*  pStringIds;
        const DexTypeId*    pTypeIds;
        const DexFieldId*   pFieldIds;
        const DexMethodId*  pMethodIds;
        const DexProtoId*   pProtoIds;
        const DexClassDef*  pClassDefs;
        const DexLink*      pLinkData;
    
        /* mapped in "auxillary" section */
        const DexClassLookup* pClassLookup;
    
        /* points to start of DEX file data */
        const u1*           baseAddr;
    
        /* track memory overhead for auxillary structures */
        int                 overhead;
    
        /* additional app-specific data structures associated with the DEX */
        void*               auxData;
    } DexFile;
    
    名称 格式 描述
    header header_item 文件头。
    string_ids string_id_item[] 字符串索引表,记录了各个字符所在的偏移值,使用UTF-16编码。
    type_ids type_id_item[] 类型数据索引,记录了各个类型的字符串索引。
    proto_id proto_id_item[] 函数原型数据索引,记录了方法声明的字符串,返回类型和参数列表。
    field_ids field_id_item[] 字段数据索引,记录了所属类,声明类型和方法名等信息。
    method_ids method_id_item[] 类方法索引,记录了方法所属类,声明类型以及方法名等信息。
    class_defs class_def_item[] 类定义数据,记录了指定类的各类信息,包括接口,超类,类数据偏移量等。
    data type_id_item[] 类型数据索引,记录了各个类型的字符串索引。
    type_ids ubyte[] 数据区,保存着各个类的数据。
    link_data ubyte[] 静态连接数据。

    header是dex文件的文件头,简单的记录了dex文件的一些基本信息和大致的数据分布。header的大小固定为0x70,其中每一项信息所占用的大小也是固定的。同样在/dalvik/libdex/DexFile.h可以看到header_item的定义:
    /*

     * Direct-mapped "header_item" struct.
     */
    typedef struct DexHeader {
        u1  magic[8];           /* includes version number */
        u4  checksum;           /* adler32 checksum */
        u1  signature[kSHA1DigestLen]; /* SHA-1 hash */
        u4  fileSize;           /* length of entire file */
        u4  headerSize;         /* offset to start of next section */
        u4  endianTag;          /*字节序标号*/
        u4  linkSize;
        u4  linkOff;
        u4  mapOff;
        u4  stringIdsSize;
        u4  stringIdsOff;
        u4  typeIdsSize;
        u4  typeIdsOff;
        u4  protoIdsSize;
        u4  protoIdsOff;
        u4  fieldIdsSize;
        u4  fieldIdsOff;
        u4  methodIdsSize;
        u4  methodIdsOff;
        u4  classDefsSize;
        u4  classDefsOff;
        u4  dataSize;
        u4  dataOff;
    } DexHeader;
    

    下表是每一项的基本信息:

    名称 格式 描述
    magic ubyte[4] dex
    version Ubyte[4] 035 或 036
    checksum uint 使用zlib 的adler32 所计算的32-bitsCheckSum . 计算的范围为DEX 文件的长度(Header->fileSize) 减去8bytes Magic Code 与4bytes CheckSum 的范围. 用来确保DEX 文件内容没有损毁.
    signature ubyte[20] SHA-1signature (hash) 用来识别原本的DEX 文件( 被优化以前的DEX).SHA-1 计算的范围为DEX 文件的长度(Header->fileSize) 减去8bytes Magic Code,4 bytes CheckSum 与20bytesSHA-1 的范围. 用来识别最原本的DEX 文件的唯一性.( 所以被优化过后, 这个SHA-1 尽能用来识别原本的DEX 文件, 而无法 通过ODEX 文件计算回最原本的DEX 文件SHA-1 值了).
    file_size uint 文件的总大小。
    header_size uint= 0x70 用来记录目前DEXHeader 的大小( 现有版本为0x70bytes), 可用来做为后续Header 如果有改版时, 最基本的头栏位向前, 向后相容的依据.
    endian_tag uint= ENDIAN_CONSTANT 预设值为Little-Endian, 在这栏位会显示32bits 值”0x12345678”.( 应该在Big-Endian 处理器上, 会转为“ 0x78563412”)
    link_size uint LinkSection 的大小, 如果为0 表示该DEX 文件不是静态连结.
    link_off uint 用来表示LinkSection 距离Dex 头的Offset. 如果LinkSize 为0, 此值也会为0. 资料格式可以参考struct DexLink.
    map_off uint 用来表示MapItem 距离Dex 头的Offset. 如果为0, 表示这DEX 文件没有MapItem. 资料格式可以参考struct map_list.
    string_ids_size uint 字符串地址列表中的元素个数。
    string_ids_off uint 字符串地址列表的偏移。
    type_ids_size uint 用来表示TypeIDs List 中的元素个数.
    type_ids_off uint TypeIDs List 的文件偏移。如果type_ids_size 为0 ,则这个值亦为0。
    proto_ids_size uint 用来表示PrototypeIDs List 中的元素个数。
    proto_ids_off uint Prototype IDs 的文件偏移。如果proto_ids_size 为0 这个值亦为0.
    field_ids_size uint Field IDs List的文件偏移。如果field_ids_size 为0 这个值亦为0。
    field_ids_off uint 字符串地址列表的偏移。
    method_ids_size uint 用来表示MethodIDs List 中的元素个数。
    method_ids_off uint 用来表示Method IDs List 距离Dex 头的Offset. 如果method_ids_size 为0 这个值亦为0. 资料格式可以参考struct DexMethodId.
    class_defs_size uint 用来表示ClassDefinitions List 的总数.
    class_defs_off uint 用来表示ClassDefinitionList 距离Dex 头的Offset. 如果class_defs_size 为0 这个值亦为0. 资料格式可以参考struct DexClassDef.
    data_size uint 用来表示DataSection 的大小. 并需为sizeof(uint) 的偶数倍.( 所以就是0,8,16…etc)
    data_off uint 用来表示DataSection 距离Dex 头的Offset.



    在header中有一个map_off,这是一个偏移地址,指向dex data区的maplist。

    /*
     * Direct-mapped "map_item".
     */
    typedef struct DexMapItem {
        u2  type;              /* type code (see kDexType* above) */
        u2  unused;
        u4  size;              /* count of items of the indicated type */
        u4  offset;            /* file offset to the start of data */
    } DexMapItem;
    
    /*
     * Direct-mapped "map_list".
     */
    typedef struct DexMapList {
        u4  size;               /* #of entries in list */
        DexMapItem list[1];     /* entries */
    } DexMapList;
    

    map_list 里先用一个 uint 描述后面有 size 个 map_item , 后续就是对应的 size 个 map_item 描述 。map_item 结构有 4 个元素 : type 表示该 map_item 的类型 ,本节能用到的描述如下 ,详细Dalvik
    Executable Format 里 Type Code 的定义 ;size 表示再细分此 item , 该类型的个数 ;offset 是第一个元素的针对文件初始位置的偏移量 ; unuse 是用对齐字节的 ,无实际用处 。在DexMapItem结构中,type是一个枚举常量。

    /* map item type codes */
     enum {
         kDexTypeHeaderItem               = 0x0000,
         kDexTypeStringIdItem             = 0x0001,
         kDexTypeTypeIdItem               = 0x0002,
         kDexTypeProtoIdItem              = 0x0003,
         kDexTypeFieldIdItem              = 0x0004,
         kDexTypeMethodIdItem             = 0x0005,
         kDexTypeClassDefItem             = 0x0006,
         kDexTypeMapList                  = 0x1000,
         kDexTypeTypeList                 = 0x1001,
         kDexTypeAnnotationSetRefList     = 0x1002,
         kDexTypeAnnotationSetItem        = 0x1003,
         kDexTypeClassDataItem            = 0x2000,
         kDexTypeCodeItem                 = 0x2001,
         kDexTypeStringDataItem           = 0x2002,
         kDexTypeDebugInfoItem            = 0x2003,
         kDexTypeAnnotationItem           = 0x2004,
         kDexTypeEncodedArrayItem         = 0x2005,
         kDexTypeAnnotationsDirectoryItem = 0x2006,
     };
    

    string_ids

    这一块区域中存储的是dex文件中字符串的资源的索引信息。即目标字符串在dex文件数据区的物理偏移地址。在DexFile.h中可以找到它的定义:

    struct DexStringId {
        u4 stringDataOff; /* 在dex文件中实际偏移量 */
    };
    

    该数据结构只有一个stringDataOff成员,当虚拟机需要读取该字符串是,只需要将dex文件在内存中的起始地址加上stringDataOff所表示的偏移值,即可得到该字符串在内存中的实际物理地址。

    在Dex文件中,每个字符串都对应了一个DexStringId数据结构,该数据结构的大小为4B,是一个确定的量。并且虚拟机可以通过头文件中的String_ids_size知道当前Dex文件的字符串总数,也就是string_ids区域中DexStringId的总数,因此虚拟机通过简单的乘法即可实现对改索引资源进行正确的访问。

    在data区存放的string并不是ascii编码,而是MUTF-8编码。这是一种修改过的UTF-8编码,与传统的UTF-8编码有以下几点区别:

    • MUTF-8使用1-3字节编码
    • 大于16位的Unicode编码U+10000~U+10ffff使用3字节来编码
    • U+0000采用2字节来编码
    • 采用空字符作为字符串的结尾
      MUTF-8字符串的头部存放的是由uleb128编码的字符串个数(字符串个数不包括结尾的空字符)。

    type_ids

    这一块区域中存储的是类型资源的索引信息。定义如下:

    struct DexTypeId {
        u4 descriptorIdx; /* 指向字符串索引表 */
    };
    

    在dex中,类型是是以字符串的形式保存在数据区的,因此DexTypeId数据结构中的descriptorIdx保存的是目标类型在字符串索引表里的序列号。虚拟机通过这个序列号从字符串索引表中找出对应类型的字符串。

    proto_ids

    这一区域中存储的内容是方法原型资源的索引信息,数据结构DexProtoId负责规格化这些信息。

    struct DexProtoId {
        u4 shortyIdx; /* 方法声明字符串,指向字符串索引表 */
        u4 returnTypeIdx; /* 方法返回类型,指向字符串索引表 */
        u4 parametersOff; /* 指向一个DexTypeList的数据结构,DexTypeList表示参数列表*/
    
    };
    

    这个数据结构的前两个成员同样指向字符串索引表,而parametersOff指向的是一个DexTypeList的数据结构,这个结构体的定义如下:

    /*
    * Direct-mapped "type_list".
    */
    typedef struct DexTypeList {
         u4  size;               /* 表示DexTypeItem数据结构的个数 */
         DexTypeItem list[1];    /* DexTypeItem列表*/
    } DexTypeList;
    

    DexTypeList表示的是一个方法的参数列表,size是参数个数,list这个数组是一个DexTypeItem的数组,这个DexTypeItem就是表示参数类型的数据结构。

    /*
     * Direct-mapped "type_item".
    */
    typedef struct DexTypeItem {
        u2  typeIdx;            /* 表示参数类型,指向type_ids索引表 */
    } DexTypeItem;
    

    typeIdx指向类型资源索引表,虚拟机通过该变亮就能获得相应的参数类型。

    field_ids

    这一块区域保存的是代码中的字段的索引信息。用数据结构DexFieldId对索引信息规格化。

    struct DexFieldId {
        u2 classIdx; /* 表示所属类的类型 */
        u2 typeIdx; /*  表示字段的类型 */
        u4 nameIdx; /*  字段的名称 */
    };
    

    在DexFieldId中,classIdx和typeIdx都是指向类型索引表type_ids中的一个DexTypeId表项。而nameIdx是指向字符串索引表string_ids中的一个表项。

    method_ids

    method_ids资源区保存的是Dex文件中类方法数据的索引信息。采用的数据结构为

    struct DexMethodId {
        u2 classIdx; /* 表示所属类的类型 */
        u2 protoIdx; /* 表示方法原型的类型 */
        u4 nameIdx; /* 方法名称 */
    };
    

    classIdx指向类型索引表type_ids中的一个DexTypeId,变量protoIdx记录的该方法的原型,指向proto_ids表。nameIdx指向字符串表string_ids,表示方法名称。

    class_def

    在class_def资源区中,使用数据结构DexClassDef来对资源信息规格化。

    struct DexClassDef {
        u4 classIdx; /* 表示类的类型,指向类型索引表 */
        u4 accessFlags; /* 访问标识符 */
        u4 superclassIdx; /* 表示超类的类型,指向类型索引表 */
        u4 interfacesOff; /* 接口信息,指向一个DexTypeList数据结构*/
        u4 sourceFileIdx; /* 表示源文件名,指向字符串索引表 */
        u4 annotationsOff; /* 注解目录结构 */
        u4 classDataOff; /* 类数据,指向一个DexClassData数据结构*/
        u4 staticValuesOff; /* 静态值得偏移量 */
        };
    

    访问标识符,表示了该类的属性,同样也适用于字段和方法,具体如下表:

    AccessFlag比特位 类(Class) 方法(Method) 域(Field)
    0x00001 Public Public Public
    0x00002 Private Private Private
    0x00004 Protected Protected Protected
    0x00008 Static Static Static
    0x00010 Final Final Final
    0x00020 N/A Synchronized N/A
    0x00040 N/A Bridge Volatile
    0x00080 N/A VarArgs Transient
    0x00100 N/A Native N/A
    0x00200 Interface N/A N/A
    0x00400 Abstract Abstract N/A
    0x00800 N/A Strict N/A
    0x01000 Synthetic Synthetic Synthetic
    0x02000 Annotation N/A N/A
    0x04000 Enum N/A Public
    0x08000 N/A Miranda N/A
    0x10000 Verified Constructor N/A
    0x20000 Optimized Declared_Synchronized N/A

    DexClassDef的成员都和前面的分析类似,不同的是classDataOff是一个dex文件内部的偏移值指向的是一个DexClassData数据结构实例,DexClassData的定义从/dalvik/libdex/DexClass.h中可以找到。

    在DexClass.h中,所有的u4类型,都被转为成uleb128类型。如下所示:

    /* Read the header of a class_data_item without verification. This
     * updates the given data pointer to point past the end of the read
     * data. */
    DEX_INLINE void dexReadClassDataHeader(const u1** pData,
            DexClassDataHeader *pHeader) {
        pHeader->staticFieldsSize = readUnsignedLeb128(pData);
        pHeader->instanceFieldsSize = readUnsignedLeb128(pData);
        pHeader->directMethodsSize = readUnsignedLeb128(pData);
        pHeader->virtualMethodsSize = readUnsignedLeb128(pData);
    }
    
    /* Read an encoded_field without verification. This updates the
     * given data pointer to point past the end of the read data.
     *
     * The lastIndex value should be set to 0 before the first field in
     * a list is read. It is updated as fields are read and used in the
     * decode process.
     */
    DEX_INLINE void dexReadClassDataField(const u1** pData, DexField* pField,
            u4* lastIndex) {
        u4 index = *lastIndex + readUnsignedLeb128(pData);
    
        pField->accessFlags = readUnsignedLeb128(pData);
        pField->fieldIdx = index;
        *lastIndex = index;
    }
    
    /* Read an encoded_method without verification. This updates the
     * given data pointer to point past the end of the read data.
     *
     * The lastIndex value should be set to 0 before the first method in
     * a list is read. It is updated as fields are read and used in the
     * decode process.
     */
    DEX_INLINE void dexReadClassDataMethod(const u1** pData, DexMethod* pMethod,
            u4* lastIndex) {
        u4 index = *lastIndex + readUnsignedLeb128(pData);
    
        pMethod->accessFlags = readUnsignedLeb128(pData);
        pMethod->codeOff = readUnsignedLeb128(pData);
        pMethod->methodIdx = index;
        *lastIndex = index;
    }
    

    每个uleb128类型是leb128的无符号类型,每个leb128类型的数据包含1-5个字节,表示一个32bit的数值。每个字节只有7位有效,最高一位用来表示是否需要使用到下一个字节,比如如果第一个字节最高位为1,表示还需要使用到第2个字节,如果第二个字节的最高位为1,表示会使用到第3个字节,以此类推,最多5个字节。对于一个2个字节的leb128类型数据,其结构如图所示。

    /* expanded form of class_data_item. Note: If a particular item is
      * absent (e.g., no static fields), then the corresponding pointer
      * is set to NULL. */
     typedef struct DexClassData {
         DexClassDataHeader header;     /*类数据头*/
         DexField*          staticFields;   /*指向目标的静态字段*/
         DexField*          instanceFields; /*指向目标类的实例字段*/
         DexMethod*         directMethods;  /*指向目标类的直接方法*/
         DexMethod*         virtualMethods; /*指向目标类的虚方法*/
     } DexClassData;
    

    首先看这个DexClassData的header成员,这个成员是一个DexClassDataHeader数据结构,记录了目标类中各个部分数据的个数,主要包括静态字段,实例字段,直接方法和虚方法。

    /* expanded form of a class_data_item header */
     typedef struct DexClassDataHeader {
         u4 staticFieldsSize;
         u4 instanceFieldsSize;
         u4 directMethodsSize;
         u4 virtualMethodsSize;
     } DexClassDataHeader;
    

    再看DexField,它的定义如下。

    struct DexField {
        u4 fieldIdx; /* 指向字段索引表中的一个表项,即一个DexFieldId的数据结构 */
        u4 accessFlags; /*访问表示符*/
    };
    

    DexMethod描述了类的方法。先看定义。

    struct DexMethod {
        u4 methodIdx; /* 指向方法索引表中的一个表项,即一个DexMethodId数据结构 */
        u4 accessFlags; /*访问标识符*/
        u4 codeOff; /* 指向一个DexCode的数据结构 */
    };
    

    注意codeOff这个成员,它指向的是一个DexCode的数据结构,而DexCode中记录的正是Dex文件中目标类方法的字节码

    struct DexCode {
        u2 registersSize;   /*寄存器个数*/
        u2 insSize;         /*输入参数个数*/
        u2 outsSize;        /*外部方法使用寄存器数*/
        u2 triesSize;       /*tries个数*/
        u4 debugInfoOff;    /* 调试信息地址 */
        u4 insnsSize;       /*方法指令个数 */
        u2 insns[1];        /*真实指令数组*/
        /* followed by optional u2 padding */
        /* followed by try_item[triesSize] */
        /* followed by uleb128 handlersSize */
        /* followed by catch_handler_item[handlersSize] */
    };
    

    Dex文件通过DexCode来管理类方法,成员insns数组保存的就是方法的真实指令的二进制数据,关于对这些数据的解析,可以参考 https://source.android.com/devices/tech/dalvik/dalvik-bytecode.html

    写Android dex文件解析的博客的比较多,感觉这篇的作者比较用心,写的很好,转载学习了:http://zke1ev3n.me/2015/12/02/Android-Dex%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F%E8%A7%A3%E6%9E%90/

  • 相关阅读:
    git 常用命令
    SVG Sprite技术介绍
    添加样式(后台给字段note(left,height-auto ))
    assign,copy,retain,readonly,readwrite之间区别
    遍历(字典的遍历)
    Block
    loadView、viewDidLoad及viewDidUnload的关系
    IOS单例模式(Singleton单粒模式)
    模仿,后台
    仿站 通用套路
  • 原文地址:https://www.cnblogs.com/csnd/p/11800659.html
Copyright © 2020-2023  润新知