• 探究操作系统的内存分配(malloc)对齐策略


    问题:

      我们在写程序的时候经常发现程序使用的内存往往比我们申请的多,为了优化程序的内存占用,搅尽脑汁想要优化内存占用,可是发现自己的代码也无从优化了,怎么办?现在我们把我们的焦点放到malloc上,毕竟我们向系统申请的内存都是通过它完成了,不了解他,也就不能彻底的优化内存占用。

    来个小例子

    复制代码
    //g++ -o malloc_addr_vec  mallc_addr_vec.cpp 编译
     2 #include<iostream>
     3 using namespace std;
     4 int main(int argc, char *argv[])
     5 {
     6     int malloc_size = atoi(argv[1]);
     7     char * malloc_char;
     8     for (size_t i = 0; i < 1024*1024; ++i) {
     9         malloc_char = new char[malloc_size];
    10     }
    11     while (1) {}//此时查看内存占用
    12     return 0;
    13 }
    复制代码

     本文的测试环境为Linux 64Bit ,使用G++编译为可执行文件后,使用不同的启动参数启动,使用top命令查看程序占用的内存,这里我们主要是看RES指标

    RES  --  Resident size (kb)

    The non-swapped physical memory a task has used.  

    测试案例:

    1.每次new 1 Byte   Do 1024*1024次

     ./malloc_addr_vec 1

    启动程序后的内存占用

     

    内存消耗 32MB 

     2.每次new 24 Byte  Do 1024*1024次

     ./malloc_addr_vec 24

     启动程序后的内存占用

     

    内存消耗32MB 

     3.每次new 25 Byte   Do 1024*1024次

     ./malloc_addr_vec 25

    启动程序后的内存占用 

     

     内存消耗48MB

      为什么我们每次new 1Byte 和每次 new 24Byte系统消耗的内存一样呢?,为什么每次new 25Byte和 每次new 24Byte占用的内存完全不同呢?

      不知道大家在写程序的时候有没有关注过这个问题。我一次遇到时,吐槽一句:What the fuck malloc. 

    原因分析:

       在大多数情况下,编译器和C库透明地帮你处理对齐问题。POSIX 标明了通过malloc( ), calloc( ), 和 realloc( ) 返回的地址对于任何的C类型来说都是对齐的。

      对齐参数(MALLOC_ALIGNMENT) 大小的设定并需满足两个特性

     1.必须是2的幂

     2.必须是(void *)的整数倍

      至于为什么会要求是(void *)的整数倍,这个目前我还不太清楚,等你来发现...

      根据这个原理,在32位和64位的对齐单位分别为8字节和16字节

      但是这并解释不了上面的测试结果,这是因为系统malloc分配的最小单位(MINSIZE)并不是对齐单位

     为了进一步了解细节,从GNU网站中把glibc源码下载下来,查看其 malloc.c文件

    View Code

       其中request2size这个宏就是glibc的内存对齐操作,MINSIZE就是使用malloc时占用内存的最小单位。根据宏定义可推算在32位系统中MINSIZE为16字节,在64位系统中MINSIZE一般为32字节。从request2size还可以知道,如果是64位系统,申请内存为1~24字节时,系统内存消耗32字节,当申请内存为25字节时,系统内存消耗48字节。 如果是32位系统,申请内存为1~12字节时,系统内存消耗16字节,当申请内存为13字节时,系统内存消耗24字节。 

    一般他们的差距是一个指针大小,计算公式是

    max(MINSIZE,in_use_size) 

    其中in_use_size=(要求大小+2*指针大小-指针大小)align to MALLOC_ALIGNMENT

    (对于上面计算的由来可以参见glibc 内存池管理 ptmalloc这篇文章的第4节chuck部分以及搜一下malloc的内部实现源码 )

      为了证明这个理论的正确性,我们需要计算一次malloc到底花掉了多少内存,我们用如下代码分别在32bit Linux和 64bit Linux上做测试

    复制代码
     2 #include<stdio.h>
     3 #include<stdlib.h>
     4 int main()
     5 {
     6         char * p1;
     7         char * p2;
     8         int i=1;
     9         printf("%d ",sizeof(char *));
    10         for(;i<100;i++)
    11         {
    12                 p1=NULL;
    13                 p2=NULL;
    14                 p1=(char *)malloc(i*sizeof(char));
    15                 p2=(char *)malloc(1*sizeof(char));
    16                 printf("i=%d     %d ",i,(p2-p1));
    17         }
    18 
    19         getchar();
    20 }
    复制代码

    其测试结果如下:

    32bit

    View Code

     64bit

    View Code  

    了解了malloc的内存对其原理后,对于程序的内存占用的优化又有了有的放矢。我们可以根据内存对齐的原则来请求内存,来制作我们的高效内存池,从而避免隐形的资源浪费.

    例如,目前STL的内存池是以8Byte为对齐单位,内存池free_list大小为

      free_list[0] --------> 8 byte

      free_list[1] --------> 16 byte

      free_list[2] --------> 24 byte

      free_list[3] --------> 32 byte
      ... ...

      free_list[15] -------> 128 byte 

    STL内存池在发现某个规则的内存用完了时,会进行refill,在进行chunk_alloc

    例如8Byte大小的空间没有了,调用refill,refill会将其空间准备20个,也就是20*8,当然refill做不了内存分配,他把20个8Byte的需求提交给chunk_alloc 

    chunk_alloc 能真正分配内存,但是它分配的时候会将内存空间*2,所以最终malloc的内存为8*20*2=320 ,32bit系统给malloc的内存为328,64bit系统给malloc的内存为336

    在32位和64位操作系统分别浪费掉8Byte和16Byte,其实我们可以在chunk_alloc内部简单的计算一下系统的内存对齐,达到 chunk_alloc 级零浪费...
    至于 allocate级别的浪费,我想是避免不了了,譬如,我需要一个6Byte的空间,STL内存池给我的确实8Byte
  • 相关阅读:
    原生JS实现几个常用DOM操作API
    js字符串操作总结
    复选框 全选 反选 不选
    纯js实现分页
    JS 数据类型转换
    原生JS 购物车及购物页面的cookie使用
    js实现两种实用的排序算法——冒泡、快速排序
    linux下rename命令使用(可以实现文件批量重名)
    screen命令常用参数使用
    iptables端口转发规则(内网端口转外网端口)
  • 原文地址:https://www.cnblogs.com/zhangyubao/p/7016900.html
Copyright © 2020-2023  润新知