正向生成
对应的C文件很简单,带上主函数只有三个函数:
int g(int x){
return x+3;
}
int f(int x){
return g(x);
}
int main(void){
return f(8)+1;
}
这个文件中并未用到其他函数只是单纯的函数调用,没有输入输出,所以不需要引入头文件。
生成汇编文件
得到一个.s结尾的汇编文件:
.file "main.c"
.text
.globl g
.type g, @function
g:
.LFB0:
.cfi_startproc
pushl %ebp
.cfi_def_cfa_offset 8
.cfi_offset 5, -8
movl %esp, %ebp
.cfi_def_cfa_register 5
movl 8(%ebp), %eax
addl $3, %eax
popl %ebp
.cfi_restore 5
.cfi_def_cfa 4, 4
ret
.cfi_endproc
.LFE0:
.size g, .-g
.globl f
.type f, @function
f:
.LFB1:
.cfi_startproc
pushl %ebp
.cfi_def_cfa_offset 8
.cfi_offset 5, -8
movl %esp, %ebp
.cfi_def_cfa_register 5
pushl 8(%ebp)
call g
addl $4, %esp
leave
.cfi_restore 5
.cfi_def_cfa 4, 4
ret
.cfi_endproc
.LFE1:
.size f, .-f
.globl main
.type main, @function
main:
.LFB2:
.cfi_startproc
pushl %ebp
.cfi_def_cfa_offset 8
.cfi_offset 5, -8
movl %esp, %ebp
.cfi_def_cfa_register 5
pushl $8
call f
addl $4, %esp
addl $1, %eax
leave
.cfi_restore 5
.cfi_def_cfa 4, 4
ret
.cfi_endproc
.LFE2:
.size main, .-main
.ident "GCC: (Ubuntu 4.9.3-13ubuntu2) 4.9.3"
.section .note.GNU-stack,"",@progbits
按函数区分一下main函数:
int main(void){
return f(8)+1;
}
对应为:
main:
pushl %ebp
movl %esp, %ebp
pushl $8
call f
addl $4, %esp
addl $1, %eax
leave
ret
f函数:
int f(int x){
return g(x);
}
对应为:
f:
pushl %ebp
movl %esp, %ebp
pushl 8(%ebp)
call g
addl $4, %esp
leave
ret
g函数:
int g(int x){
return x+3;
}
对应为:
g:
pushl %ebp
movl %esp, %ebp
movl 8(%ebp), %eax
addl $3, %eax
popl %ebp
ret
这里删除了cfi指令,最后讨论;先看看共性所有的函数在前两步都做了ebp压栈,并将esp赋给ebp的操作,对应两个寄存器的用途ebp表明栈低(但是却在高位,栈是由高地址向下生长),对应的esp指向栈顶(在地址低位);于是可以得到这两个命令是为函数建立栈空间,而这个栈的形式是建立在调用该函数的函数的栈的顶部(地址的低位)。
再看传参的操作,从main函数开始,由于参数的形式是int,所以使用了pushl,也就是intel中的双字,对应为4个字节,之后main函数调用了f函数,对应又压栈了一个返回地址(4个字节对应,eip寄存器的长度),到了f函数这里,其意图调用g函数,于是其需要将参数取出压入自己的栈中,对应之前的返回地址加参数的4字节一共是8字节,而自身栈底所对应的位置正是之前函数的栈顶,也就是返回地址的顶部,所以通过8(%ebp)对应intel中的[ebp+ 8],即可获得对应的参数,之后其又将该参数压栈即完成传参,到函数g直接通过相似的方式movl 8(%ebp), %eax即intel的mov eax [ebp+ 8],便可将参数取到eax中。
再之后就是各个函数的具体操作了,g函数就是直接加3,对应main函数得到返回值(eax)直接加1也很简单。
最后再看看函数的返回时的处理,这里的返回参数都很简单由eax直接返回即可,重点在于对函数栈的销毁,从栈顶往下先是g函数,实际过程中该函数的栈仅存储了一个先前函数的栈底,在重置ebp的值后,相当于栈是空的(栈顶指针等于栈底指针),所以只要恢复(popl %ebp)即可进行返回。再到f函数的栈,其在过程中使用了一次传参,所以其栈还有一个参数,对应的将该参数抹去(addl $4, %esp),之后进行leave即可,有趣的来了:
在实验楼平台中并没有这一步,而在我自己的虚拟机中就包含了这一步:
也许是gcc的版本问题吧,其实leave操作就包含了恢复原有函数的栈顶与栈底的操作,所以这里(addl $4, %esp)实际是多余的,除此之外,实验楼平台的栈似乎是栈底在低位,栈顶在高位,都差不多.......剩下一个main函数的回调实际也是差不多的,不再赘述。
cfi指令
.cfi_startproc
pushl %ebp
.cfi_def_cfa_offset 8
.cfi_offset 5, -8
movl %esp, %ebp
.cfi_def_cfa_register 5
movl 8(%ebp), %eax
addl $3, %eax
popl %ebp
.cfi_restore 5
.cfi_def_cfa 4, 4
ret
.cfi_endproc
先不论其作用,仅看其在代码中的意义,.cfi_startproc与.cfi_endproc分别标注了函数的起始,显而易见。剩下的几个部分都在描述栈顶指针信息和一些偏置量。
这里涉及到了一个调用框架或者说是栈帧的概念,其描述的就是函数在调用时为于内存中的数据区域,该区域中包含了该函数运行所需的全部信息,而CFI的作用就是提供调用框架信息,来方便进行异常处理或者堆栈回绕。其实际的意义更像是一种注解。
先从.cfi_def_cfa_offset 8与.cfi_offset 5, -8看起,其在pushl %ebp指令之后,对应的函数栈中栈顶为旧的ebp,再往下为上次函数调用时压入的返回地址,其定义了一个名为CFA的位置(上一个函数栈的栈顶位置)其位于返回地址之下即.cfi_def_cfa_offset 8,而.cfi_offset 5, -8中的5对应为x86的8个通用寄存器(依次分别是: eax, ebx, ecx, edx, esp, ebp, esi, edi)中的第六个ebp,即说明原有的ebp存储在CFA-8的位置,也就是与pushl %ebp对应。
.cfi_def_cfa_register 5命令在movl %esp, %ebp之后,之前函数使用的是esp来描述栈顶,而在函数调用之后其使用的是ebp来用该函数的栈低描述上个函数的栈顶。
最后是.cfi_restore 5与.cfi_def_cfa 4, 4命令,其在popl %ebp之后,对应的ebp恢复为了原先旧值,对应的.cfi_restore 5就是指ebp,而在popl完成后,栈顶就是一个返回地址,所以使用栈顶esp加上4,也就是向下一个单位来描述旧函数的栈顶位置,即新的CFA位置。这里第一个4是指esp寄存器,第二个4是偏置值。
逆向分析
计算机真实处理的数据为二级制指令,即二进制文件,使用radare2这个软件可以实现简单的逆向分析。
首先是生成相应的二进制文件:
直接打开对应的二进制文件:
图中第二列的机器码就对应二进制文件中的内容,通过该软件可以得到其对应汇编指令,可以看出程序的运行还是需要在一定的系统环境中进行,在运行main函数之前系统还进行了许多其他的操作。比如下面那个sym.imp.__libc_start_main的函数。
进一步的进入main函数的入口:
其与汇编所产生的代码一致,只不过实际的二进制文件中使用的是第二列的机器码进行记录。(这里的汇编使用的是intel的格式,而不是AT&T的格式)。
再进一步进入f函数:
对应的也是与汇编一致,从指令的格式来看,其属于复杂指令集(CISC),而非精简指令集(RISC)。相应的函数g: