指令集是CPU体系架构的重要组成部分。C语言的语法是对解决现实问题的运算和流程的方法的高度概况和抽象,其主要为算术、逻辑运算和分支控制,而指令集就是对这些抽象的具体支持,汇编只不过是为了让开发人员更好地记住指令,但它跟CPU所认的机器码其实是一一对应的,因此汇编也是低级语言。
CPU的指令执行一般包括取指、译码和执行,这是经典的三级指令执行流水线,教科书上往往以这三种过程来描述,arm7也是。但是现代的CPU设计往往使用更广泛使用的5级流水线,也就是分为取指、译码、执行、访存和回写。为什么要分为5级?这是由流水线的各个阶段的时间来决定的。我们可以考虑现实生活的工厂的流水线。
假设某流水线只有 三个工序,有三个工人A、B、C,则这条生产线的效率就取决于效率最低的那个工人的效率。现假设B做完其负责的工序需要10秒,而A和C完成只需要5秒,总共要完成4个产品。那总时间应该是:5+10*4+5 = 50秒,(第一个5是A先做第一道工序的时间,这时B和C都得等,而最后一个5是C必须要等B全部完成后才能开始)即会出现C在等待,而B一直在忙死忙活的场景。
当然,无论怎样,流水线的执行总比完成没有流水好,就好比A、B、C负责的工作都由一个人去做,那做完一个得20秒。全部做完得20*4 = 80秒。
最理性的场景就是三个人做事的效率是一样的,那就不会出现等待的情况。那现在确实遇到B工作效率最低的问题,怎么解决呢?就是将B的工作重新分解,平均分成两个工序,也就是B1和B2,分别都是5秒完成,那完成的总时间是40秒。
CPU指令的三级流水执行正是遇到各步骤流水时间不均的问题,也就是取指和译码往往比较快,而执行包括运算和访问寄存器、内存或者回写等功能,因此执行的时间一般比取指和译码要长,取指和译码可以在单时钟周期内完成,但执行需要2到3个时钟周期才能完成。要想得到更高的流水效率,就需要将执行部分分解为执行(运算等)、访存(内存)和回写(寄存器)。
CPU指令的流水线执行对于软件开发人员来说,最重要的就是要知道当前PC(程序计数寄存器)的值与当前执行指令的关系。取指指的是CPU根据当前PC的值内存的对应地址去取指令,因此PC值永远都指的都是当前取指令步骤的地址,而译码则是CPU的一部分电路根据取出来的指令机器码进行译码,选择对应的电路来执行这条执行,如选择加法电路还是减法电路,还是逻辑与电路等等;执行就是这个电路的执行过程了。
arm7的流水线示意图是:
从图可以看到在T1时刻,CPU的执行电路执行的是MOV指令,而取指电路取的是SUB指令,因此当前执行电路的MOV对应的运行地址应该是当前PC值减8. 如果当前运行的指令是一个函数调用(即BL指令),但返回地址就应该是ADD指令所在的地址,即(PC减4)。
有人问到流水线断流的问题,补充说明一下,断流主要有以下情况:
1)数据相关。如第二条指令需要的数据正好是第一条指令执行的结果。这时第二条必须等待。
2)分支跳转。指令分支判断之后,可能会顺序执行,也可能跳转到其他地方,这时也会引起流水线的断流。