• 代码优化常识


    32位代码优化常识
    原作者:  Benny/29A
    翻译改写:hume/冷雨飘心


    [注意:这不是鹦鹉学舌的翻译,我尽量以我的理解传达原文的本意]

    关于代码优化的文章实在太多了,遗憾的是大部分我都没有看,尽管他们就摆在我的床边(每当我要看的时候就忍不住打哈欠...嘿嘿).这篇文章较短所以翻了一下.

    代码优化的含义:

    代码优化的目标当然是体积小和速度快,但是在通常的情况下二者就象鱼和熊掌一样不能得兼,我们通常寻找的是这二者的折中,究竟应该偏向何方,那就得具体看我们的实际需要.

    但有些常识是我们应该牢记的,下面就结合我们最常遇到的具体情况来漫谈一下:

    1.寄存器清0
            我绝对不想再看到下面的写法:
            1)      mov eax, 00000000h                    ;5 bytes
           
            看起来上面的写法很符合逻辑,但你应当意识到还有更加优化的写法:
            2)      sub eax, eax                          ;2 bytes

            3)      xor eax, eax                          ;2 bytes
            看看后面的字节数你就应该理解为什么要这么作了,除此之外,在速度上也没有损失,他们一样快,但你喜欢xor还是sub呢?我是比较喜欢xor,原因很简单,因为我数学不好....
            不过Microsoft比较喜欢sub....我们知道windows运行的慢....(呵呵,当然是玩笑这并不是真正原因X-D!)

    2.测试寄存器是否为0
            我也不希望看到下面的代码:
            1)      cmp eax, 00000000h                    ;5 bytes
                    je _label_                            ;2/6 bytes (short/near)

            [* 注意很多指令针对eax作了优化,你要尽可能多地实用eax,比如CMP EAX, 12345678h (5 bytes)
            如果你使用其他寄存器,就是6bytes *]
           
            让我们看看,简单的比较指令居然要用7/11 bytes,No No No,试试下面的写法:
            2)      or eax, eax                          ;2 bytes
                    je _label_                            ;2/6 (short/near)

            3)      test eax, eax                        ;2 bytes
                    je _label_                            ;2/6 (short/near)

            呵呵,只有4/8 bytes,看看我们可节省多少字节啊3/4字节...那么接下来的问题是你喜欢OR还是TEST呢,就我个人而言,比较喜欢TEST,因为test不改 变任何寄存器,并不向任何寄存器写入内容,这通常能在pentium机上取得更快的执行速度.
           
            别高兴的太早,因为还有更值得我们高兴的事情,假如你要判断的的是eax寄存器,那么看看下面的,是不是更有启发?
            4)      xchg eax, ecx                        ;1 byte
                    jecxz _label_                        ;2 bytes
            在短跳转的情况下我们比2)和3)又节省了1字节.oh....___...

    3.测试寄存器是否为0FFFFFFFFh
            一些API返回-1,因此如何测试这个值呢?看你可能又要这样:
            1)      cmp eax, 0ffffffffh                  ;5 bytes
                    je _label_                            ;2/6 bytes
            hey,不要这样,写代码的时候想一想,于是有了下面的写法:
            2)      inc eax                              ;1 byte
                    je _label_                            ;2/6 bytes
                    dec eax                              ;1 byte

            可以节省3 bytes并且执行速度会更快.

    4.置寄存器为0FFFFFFFFh
            看看假如你是Api的作者,如何返回-1?这样吗?
            1)      mov eax, 0ffffffffh                  ;5 bytes

            看了上面的不会再这么XXX了吧?看看下面的:
            2)      xor eax, eax / sub eax, eax          ;2 bytes
                    dec eax                              ;1 byte
            节省一个字!还有写法:
            3)      stc                                  ;1 byte
                    sbb eax, eax                          ;2 bytes
            这有时还可以优化掉1 byte:
                    jnc _label_
                    sbb eax, eax                          ;2 bytes only!
          _label_: ...

          我们为什么用asm呢?这就是原因.

    5.寄存器清0并移入低字数值
            1)      xor eax, eax                          ;2 bytes
                    mov ax, word ptr [esi+xx]            ;4 bytes
            ????--->不会吧,这可能是最多初学者的写法了,我当然原来也是,看了benny的文章之后我决定改写为:
            2)      movzx eax, word ptr [esi+xx]          ;4 bytes
            收获2 bytes!

            下面的
            3)      xor eax, eax                          ;2 bytes
                    mov al, byte ptr [esi+xx]            ;3 bytes

            就相应改为:
            4)      movzx eax, byte ptr [esi+xx]          ;4 bytes

            我们应当尽可能利用movzx
            5)      xor eax, eax                          ;2 bytes
                    mov ax, bx                            ;3 bytes

            因为执行速度不慢并通常能节省字节...
            6)      movzx eax, bx                        ;3 bytes

    6.关于push,下面是着重代码体积的优化,因为寄存器操作总要比内存操作要快.

            1)      mov eax, 50h                          ;5 bytes

            这样就小了1 word

            2)      push 50h                              ;2 bytes
                    pop eax                              ;1 byte
           
            当操作数只有1字节时候,push只有2 bytes,否则就是5 bytes,记住!
            下一个问题,向堆栈中压入7个0

            3)      push 0                                ;2 bytes
                    push 0                                ;2 bytes
                    push 0                                ;2 bytes
                    push 0                                ;2 bytes
                    push 0                                ;2 bytes
                    push 0                                ;2 bytes
                    push 0                                ;2 bytes

          占用14字节,显然不能满意,优化一下
            4)      xor eax, eax                          ;2 bytes
                    push eax                              ;1 byte
                    push eax                              ;1 byte
                    push eax                              ;1 byte
                    push eax                              ;1 byte
                    push eax                              ;1 byte
                    push eax                              ;1 byte
                    push eax                              ;1 byte

            可以更紧凑,但会慢一点的形式如下:

            5)      push 7                                ;2 bytes
                    pop ecx                              ;1 byte
          _label_:  push 0                                ;2 bytes
                    loop _label_                          ;2 bytes

            可以节省7字节....

            有时候你可能会从将一个值从一个内存地址转移到另外内存地址,并且要保存所有寄存器:

            6)      push eax                              ;1 byte
                    mov eax, [ebp + xxxx]                  ;6 bytes
                    mov [ebp + xxxx], eax                  ;6 bytes
                    pop eax                                ;1 byte

            试试push,pop

            7)      push dword ptr [ebp + xxxx]            ;6 bytes
                    pop dword ptr [ebp + xxxx]            ;6 bytes
    7.乘法
       
            当eax已经放入被乘数,要乘28h,如何来写?
            1)      mov ecx, 28h                          ;5 bytes
                    mul ecx                              ;2 bytes

          好一点的写法如下:

            2)      push 28h                              ;2 bytes
                    pop ecx                              ;1 byte
                    mul ecx                              ;2 bytes

            哇这个更好::

            3)      imul eax, eax, 28h                    ;3 bytes

            intel在新CPU中提供新的指令并不是摆设,需要你的使用.

    8.字符串操作


            你如何从内存取得一个字节呢?
            速度快的方案:
            1)      mov al/ax/eax, [esi]                  ;2/3/2 bytes
                    inc esi                              ;1 byte

            代码小的方案:
            2)      lodsb/w/d                            ;1 byte

            我比较喜欢lod因为他小,虽然速度慢了点.
           
            如何到达字符串尾呢?
          JQwerty's method:

            9)      lea esi, [ebp + asciiz]              ;6 bytes
          s_check: lodsb                                ;1 byte
                    test al, al                          ;2 bytes
                    jne s_check                          ;2 bytes

            Super's method:

            10)    lea edi, [ebp + asciiz]              ;6 bytes
                    xor al, al                            ;2 bytes
          s_check: scasb                                ;1 byte
                    jne s_check                          ;2 byte

          选择哪一个?Super的在386以下的更快,JQwerty的在486以及pentium上更快,体积一样,选择由你.

    9.复杂一点的...

            假设你有一个DWORD表,ebx指向表的开始,ecx是指针,你想给每个doword加1,看看如何作:
            1)      pushad                                ;1 byte
                    imul ecx, ecx, 4                      ;3 bytes
                    add ebx, ecx                          ;2 bytes
                    inc dword ptr [ebx]                  ;2 bytes
                    popad                                ;1 byte

            可以优化一点,但是好像没人用:

            2)      inc dword ptr [ebx+4*ecx]            ;3 bytes

            一条指令就节省6字节,而且速度更快,更易读,但好像没有什么人用?...why?
            还可以有立即数:
            3)      pushad                                ;1 byte
                    imul ecx, ecx, 4                      ;3 bytes
                    add ebx, ecx                          ;2 bytes
                    add ebx, 1000h                        ;6 bytes
                    inc dwor ptr [ebx]                    ;2 bytes
                    popad                                ;1 byte

            优化为:
            4)      inc dword ptr [ebx+4*ecx+1000h]      ;7 bytes

            节省了8字节!
           

            看一下lea指令能为我们干点什么呢?
                    lea eax, [12345678h]

            eax的最后结果是什么呢?正确答案是12345678h.

            假设 EBP = 1
                    lea eax, [ebp + 12345678h]
            结果是123456789h....呵呵比较一下:
                    lea eax, [ebp + 12345678h]            ;6 bytes
                    ==========================
                    mov eax, 12345678h                    ;5 bytes
                    add eax, ebp                          ;2 bytes

            5) 看看:
                    mov eax, 12345678h                    ;5 bytes
                    add eax, ebp                          ;2 bytes
                    imul ecx, 4                          ;3 bytes
                    add eax, ecx                          ;2 bytes

            6) 用lea来进行一些计算我门将从体积上得到好处:

                    lea eax, [ebp+ecx*4+12345678h]        ;7 bytes

            速度上一条lea指令更快!不影响标志位...记住下面的格式,在许多地方善用他们你可以节省时间和空间.
                    OPCODE <SIZE PTR> [BASE + INDEX*SCALE + DISPLACEMENT]

    10.下面是关于病毒重定位优化的,惧毒人士请绕行...
           
            下面的代码你不应该陌生
            1)      call gdelta
            gdelta: pop ebp
                    sub ebp, offset gdelta

            在以后的代码中我们这样使用delta来避免重定位问题
                    lea eax, [ebp + variable]

            这样的指令在应用内存数据的时候是不可避免的,如果能优化一下,我门将会得到数倍收益,打开你的sice或者trw或者ollydbg等调试器,看看:
            3)      lea eax, [ebp + 401000h]              ;6 bytes
           
            假如是下面这样     
            4)      lea eax, [ebp + 10h]                  ;3 bytes

            也就是说如果ebp后面变量是1字节的话,总的指令就只有3字节       
            修改一下最初的格式变为:

            5)      call gdelta
            gdelta: pop ebp

            在某些情况下我们的指令就只有3字节了,可以节省3字节,嘿嘿,让我们看看:
            6)      lea eax, [ebp + variable - gdelta]    ;3 bytes

            和上面的是等效的,但是我们可以节省3字节,看看CIH...

    11.其他技巧:
          如果EAX小于80000000h,edx清0:
            --------------------------------------------------

            1)      xor edx, edx                          ;2 bytes, but faster

            2)      cdq                                  ;1 byte, but slower

            我一直使用cdq,为什么不呢?体积更小...


            下面这种情况一般不要使用esp和ebp,使用其他寄存器.
            -----------------------------------------------------------

            1)      mov eax, [ebp]                        ;3 bytes
            2)      mov eax, [esp]                        ;3 bytes

            3)      mov eax, [ebx]                        ;2 bytes


            交换寄存器中4个字节的顺序?用bswap
            ---------------------------------------------------------
                    mov eax, 12345678h                    ;5 bytes

                    bswap eax                            ;2 bytes

                    ;eax = 78563412h now     

            Wanna save some bytes replacin' CALL ?
            ---------------------------------------

            1)      call _label_                          ;5 bytes
                    ret                                  ;1 byte

            2)      jmp _label_                          ;2/5 (SHORT/NEAR)

            如果仅仅是优化,并且不需要传递参数,请尽量用jmp代替call
           

            比较 reg/mem 时如何节省时间:
            ------------------------------------------

            1)      cmp reg, [mem]                        ;slower

            2)      cmp [mem], reg                        ;1 cycle faster


            乘2除2如何节省时间和空间?
            ------------------------------------------------------------
            1)      mov eax, 1000h
                    mov ecx, 4                            ;5 bytes
                    xor edx, edx                          ;2 bytes
                    div ecx                              ;2 bytes

            2)      shr eax, 4                            ;3 bytes

            3)      mov ecx, 4                            ;5 bytes
                    mul ecx                              ;2 bytes

            4)      shl eax, 4                            ;3 bytes
           

            loop指令
            ------------------------

            1)      dec ecx                              ;1 byte
                    jne _label_                          ;2/6 bytes (SHORT/NEAR)

            2)      loop _label_                          ;2 bytes

            再看:
            3)      je $+5                                ;2 bytes
                    dec ecx                              ;1 byte
                    jne _label_                          ;2 bytes

            4)      loopXX _label_ (XX = E, NE, Z or NZ)  ;2 bytes
            loop体积小,但486以上的cpu上执行速度会慢一点...


          比较:
            ---------------------------------------------------------
            1)      push eax                              ;1 byte
                    push ebx                              ;1 byte
                    pop eax                              ;1 byte
                    pop ebx                              ;1 byte
         
         
            2)      xchg eax, ebx                        ;1 byte

            3)      xchg ecx, edx                        ;2 bytes
            如果仅仅是想移动数值,用mov,在pentium上会有较好的执行速度:
            4)      mov ecx, edx                          ;2 bytes


            比较:
            --------------------------------------------

            1) 未优化:
            lbl1:  mov al, 5                            ;2 bytes
                    stosb                                ;1 byte
                    mov eax, [ebx]                        ;2 bytes
                    stosb                                ;1 byte
                    ret                                  ;1 byte
            lbl2:  mov al, 6                            ;2 bytes
                    stosb                                ;1 byte
                    mov eax, [ebx]                        ;2 bytes
                    stosb                                ;1 byte
                    ret                                  ;1 byte
                                                          ---------
                                                          ;14 bytes
            2) 优化了:
            lbl1:  mov al, 5                            ;2 bytes
            lbl:    stosb                                ;1 byte
                    mov eax, [ebx]                        ;2 bytes
                    stosb                                ;1 byte
                    ret                                  ;1 byte
            lbl2:  mov al, 6                            ;2 bytes
                    jmp lbl                              ;2 bytes
                                                          ---------
                                                          ;11 bytes

          读取常数变量,试试在指令中直接定义:
          -----------------------------                   

    ...
                    mov [ebp + variable], eax            ;6 bytes
                    ...
                    ...
          variable dd      12345678h                    ;4 bytes

            2) 优化为:

                    mov eax, 12345678h                    ;5 bytes
          variable = dword ptr $ - 4
                    ...
                    ...
                    mov [ebp + variable], eax            ;6 bytes

            呵呵,好久没看到这么有趣的代码了,前提是编译的时候支持代码段的写入属性要被设置.
           
            最后介绍未公开指令SALC,现在的调试器都支持...什么含义呢:就是CF位置1的话就将al置为0xff
            ------------------------------------------------------------------

            1)      jc _lbl1                              ;2 bytes
                    mov al, 0                            ;2 bytes
                    jmp _end                              ;2 bytes
              _lbl: mov al, 0ffh                          ;2 bytes
              _end: ...

            2)      SALC  db    0d6h                    ;1 byte ;)
    ------------------------------------------------------------------>over...

  • 相关阅读:
    大数据学习笔记01
    寻址方式
    指令格式
    虚拟存储器
    高速缓冲存储器Cache
    双端口RAM和多模块存储器
    主存储器与CPU的连接
    半导体存储器
    存储系统——基本概念
    算术逻辑单元
  • 原文地址:https://www.cnblogs.com/milantgh/p/3927489.html
Copyright © 2020-2023  润新知