前言:
要进行指令模拟,我们先需要了解X86架构下的指令是长什么样子的。根据intel的编程手册我们找到了如下信息。
Intel CPU的机器指令格式如下图所示:
e.g.:图片位于intel开发手册第二卷第二章的2.1
根据开发手册,一条指令由 指令前缀(Instruction Prefixes) + 操作码(Opcode) + ModR/M + SIB + 偏移(displacement) + 立即数(Immediate data)几部分组成,一条指令至少需要有Opcode,其它几部分,在不同指令中可能存在可能不存在。今天我们主要来看Opcode、Instruction Prefixes、Immediate data三部分在不同指令中的使用。
一:x86指令解析
1.1 指令前缀
指令前缀分为四组,每组都有一组允许的前缀代码。对于每条指令,它仅在包含来自四个组(组 1、2、3、4)中的每一组的最多一个前缀代码时有用。第 1 组至第 4 组可以以任何相对于彼此的顺序放置。
第一组:封锁和重复执行前缀
F0H: LOCK前缀,封锁总线。在有数的指令(如ADD,ADC)前方时,使指令变为原子操作,并与被修饰的指令一起提供内存屏障效果。
F2H:REPNE/REPNZ前缀(只位于字符串指令前)
F3H:REP前缀(只位于字符串指令前)
F3H:(与REP前缀同码)
第二组:段前缀
在32位汇编中,有8个段寄存器:ES、CS、SS、DS、FS、GS、LDTR、TR(顺序固定),不再用段寄存器寻址而只做权限控制。前缀和寄存器对应如下:
2E - CS 36 - SS 3E - DS 26 - ES 64 - FS 65 - GS
使用前缀修饰后,指令(opcode)的默认段寄存器会被修改,如默认的MOV操作从DS段拿数据,加上36前缀后会基于SS段地址取数据。
第三组:修改操作数默认长度
66H,用来“反转”默认的16位或32位操作数宽度。例如,当默认的操作数宽度是32位时,可以用这个前缀选择16位宽度的操作数,或者反之。如下指令码和汇编对照:
50: PUSH EAX 6650: PUSH AX
第四组:修改默认地址长度
67H,用来“反转”默认的16位或32位地址宽度。例如,当默认的地址宽度是32位时,可以用这个前缀选择16位宽度的地址,或者反之。如下指令码和汇编对照:
8801: MOV DS:[ECX],AL 678801: MOV DS:[BX+DI], AL
2. 指令码(opcode)
主操作码的长度可以是 1、2 或 3 个字节。如果主操作码不能确定指令则会有额外的字段编辑倒ModR/M中。如果主操作码是0x0f开头则需要取第二字节,如果主操作码开头是0x0f38,0x0f3a开头则再取第三字节。
从intel编程手册中截取一字节指令码格式如下图(附录A,第三章):
部分释义:
G:通用寄存器
E:寄存器/内存
b:字节
v:worddouble wordquadword(16/32/64位,取决于CPU模式)
opcode查看方法:
如指令码0x48,查看第4行第0列,属于dec eax(REX是为64位指令集使用的,可自行搜索研究),此时指令为定长指令。
再比如0x28(表示sub Eb, Gb),这里Gb表示通用寄存器,Eb表示还需要其他字段来确定这个参数,这就是下面要讲的ModR/M字段。此时指令为不定长指令。
3. ModR/m
字段名称解析:
Mod: 指明操作码中的E表示寄存器还是内存,11表示内存,其余表示寄存器
Reg/Opcode:标记通用寄存器
R/M:配合Mod字段标明取址方式,若为内存寻址则需要SIB字段辅助
ModR/m格式表格:
指令解析示例:88 01
①"88"我们知道其同通式是“mov Eb,Gb”,因此88是不定长指令,所以其后的一个字节**"01"即为ModR/M;
②我们将“01”按照ModR/M的格式拆分成三部分:01== 00 000 001三部分 ==> Mod=00=0,Eb即为byte ptr的内存;Reg/Opcode=000=0,即为eax/ax/al寄存器(Eb即byte则为al);R/M=001=1,即为ecx
③确定出“8801”的汇编指令为:mov byte ptr [ecx],al ==>mov byte ptr ds:[ecx],al(没有指令前缀则DS是默认的)
3. SIB
SIB字段 引出:
SIB是紧接着ModR/M的一个字节。不定长指令后必有ModR/M,而ModR/M的Mod不为"11"且R/M值为"100"(ESP)时则ModR/M后就有SIB。
解析方式:
SIB字段分三部分,如上图所示。
该三部分均存在于[]的括号中,格式为:Base + Index*2^(Scale),Base为寄存器编号索引的寄存器,Index也是寄存器编号索引的寄存器,Scale为00~11,因此格式又为:Base + Index * 1/2/4/8所以格式形如:ds:[eax+ecx*4]。
解析示例:"88 84 48 12 34 56 78":
①Opcode = 88 --> 指令格式:mov Eb,Gb
②ModR/M = 84 --> 10 000 100 -->[reg+disp32](普通格式), al,esp
③由于Mod为10,且R/M为100,则属于特殊情况,不遵循普通格式,所以下一个字节为SIB(可确定汇编指令为:mov byte ptr [–][–][disp32],al)
④[–][–]解析:SIB = 48H --> 01 001 000;Scale=1,Index=1(ECX),Base=0(EAX)
⑤得到汇编指令为:mov byte ptr [eax][ecx*2][78563412],al ==> **mov byte ptr [eax+ecx*2+78563412],al**
二:指令模拟
本文不对虚拟化的基础知识再进行展开,如需理解下面的内容须先 了解硬件辅助虚拟化的基础知识,如 KVM/GVM/HAXM的实现流程,网上讲基础的帖子很多,此处就不再展开。
如下内容基于HAXM进行流程分析,假设大家都知道了一些基础知识(如VM_EXIT,VM_ENTRY,VMX)
2.1 功能定位
指令模拟在硬件辅助虚拟化环境下,所处的执行流程如下图:
2.2 功能描述
功能描述部分属于上图蓝色部分的展开,便于后续对代码的理解
2.3 代码流程