• 位图法bitmap


    1.概念

    1)所谓bitmap,就是用每一位(bit)来标记某个元素对应的value, 而key即是该元素,通常bitmap是一个int数组,用每一个int数的每一个bit来映射某个数据

    2)由于采用了Bit为单位来存储数据,因此可以大大节省存储空间,适用于海量数据,且每个数据的状态(value)又不是很多的情况

    3)常用于在海量数据中的快速查找,判重,删除

    4)在STL中有一个bitset容器,其实就是位图法

    2.原理

    2.1基本原理

            我们先来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。那么我们就可以采用Bit-map的方法来达到排序的目的。要表示8个数,我们就只需要8个Bit(1Bytes),首先我们开辟1Byte的空间,将这些空间的所有Bit位都置为0,如下图:

    然后遍历这5个元素,首先第一个元素是4,那么就把4对应的位置为1(可以这样操作 p+(i/8)|(0x01<<(i%8)) 当然了这里的操作涉及到Big-ending和Little-ending的情况,这里的图默认为Big-ending),因为是从零开始的,所以要把第五位置为一(如下图):

    然后再处理第二个元素7,将第八位置为1,,接着再处理第三个元素,一直到最后处理完所有的元素,将相应的位置为1,这时候的内存的Bit位的状态如下: 

    然后我们现在遍历一遍Bit区域,将该位是一的位的编号输出(2,3,4,5,7),这样就达到了排序的目的。

    2.2bit映射

    假设需要排序或者查找的总数N=10000000,那么我们需要申请一个数组 int a[1 + N/32],作为bitmap,其中:a[0]在内存中占32为可以对应十进制数0-31,依次类推: 
    bitmap表为: 
    a[0]--------->0-31 
    a[1]--------->32-63 
    a[2]--------->64-95 
    a[3]--------->96-127 
    .......... 

    2.3优点

    1)占用内存少,比如N=10000000(1千万),只需占用内存为N/8=1250000Byte=1.25M

    2)运算效率高,可以通过进行位操做实现

    2.4缺点

           所存的数据不能重复。即不可对重复的数据进行排序和查找

    3.代码实现

    #define N 1000000    //1千万
    
    int arr[1 + (N >> 5)] = { 0 };//申请内存的大小,num>>5等价于num/32
    
    //设置num所在的bit为1
    void set(int num)
    {
        arr[num >> 5] |= (1 << (num & 0x1F));//num&0x1F等价于num%31
    }
    
    //设置num所在的bit为0
    void del(int num)
    {
        arr[num >> 5] &= ~(1 << (num & 0x1F));//~:非
    }
    
    //测试num所在的bit是否为1
    bool test(int num)
    {
        return arr[num >> 5] & (1 << (num & 0x1F));
    }

    4.应用实例

    1、给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中

      首先,将这40亿个数字存储到bitmap中,然后对于给出的数,判断是否在bitmap中即可。

    2、使用位图法判断int数组是否存在重复

      遍历数组,一个一个放入bitmap,并且检查其是否在bitmap中出现过,如果没出现则放入,否则即为重复的元素。

    3、使用位图法进行int数组排序

      首先遍历数组,得到数组的最大最小值,然后根据这个最大最小值来缩小bitmap的范围。这里需要注意对于int的负数,都要转化为unsigned int来处理,而且取位的时候,数字要减去最小值。从bitmap中取出数时,再在取出时转化成int。

    4、在2.5亿个int整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数

      参考的一个方法是:采用2-Bitmap(每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意义),内存仅需要 2.5x108bit/8/1024/1024x2=60M。其实,这里可以使用两个普通的Bitmap,即第一个Bitmap存储的是整数是否出现,如果再次出现(也就是重复了)则在第二个Bitmap中存入,最后再比对这两个bitmap,选出不重复的数,这样的话,就可以使用简单的1- Bitmap了。

    5、在本地磁盘里面有file1和file2两个文件,每一个文件包含500万条随机整数(可以重复),最大不超过2147483648也就是一个int表示范围。要求写程序将两个文件中都含有的整数输出到一个新文件中。

      先将file1中的500万条随机整数存进bitmap中(虽然可能有重复,但是重复不影响),再一个一个依次读入file2中的数,使用bitmap进行判重

    参考资料

    https://blog.csdn.net/hguisu/article/details/7880288

  • 相关阅读:
    【扫盲】i++和++i的区别
    java 字符串String.intern()方法学习
    随机访问和快速访问
    Semaphore信号量深度解析
    CyclicBarrier回环屏障深度解析
    CountDownLatch深度剖析
    静态代理和装饰者模式的区别
    AspectJ之@DeclareParents注解为对象添加新方法
    C#开发上位机常用
    使用Charles进行抓包、篡改请求、设置代理
  • 原文地址:https://www.cnblogs.com/Joezzz/p/10276367.html
Copyright © 2020-2023  润新知