位图法bitmap

位图法bitmap
1.概念

1）所谓bitmap，就是用每一位（bit）来标记某个元素对应的value，而key即是该元素，通常bitmap是一个int数组，用每一个int数的每一个bit来映射某个数据

2）由于采用了Bit为单位来存储数据，因此可以大大节省存储空间，适用于海量数据，且每个数据的状态（value）又不是很多的情况

3）常用于在海量数据中的快速查找，判重，删除

4）在STL中有一个bitset容器，其实就是位图法

2.原理

2.1基本原理

我们先来看一个具体的例子，假设我们要对0-7内的5个元素(4,7,2,5,3)排序（这里假设这些元素没有重复）。那么我们就可以采用Bit-map的方法来达到排序的目的。要表示8个数，我们就只需要8个Bit（1Bytes），首先我们开辟1Byte的空间，将这些空间的所有Bit位都置为0，如下图：

然后遍历这5个元素，首先第一个元素是4，那么就把4对应的位置为1（可以这样操作 p+(i/8)|(0x01<<(i%8)) 当然了这里的操作涉及到Big-ending和Little-ending的情况，这里的图默认为Big-ending）,因为是从零开始的，所以要把第五位置为一（如下图）：

然后再处理第二个元素7，将第八位置为1,，接着再处理第三个元素，一直到最后处理完所有的元素，将相应的位置为1，这时候的内存的Bit位的状态如下：

然后我们现在遍历一遍Bit区域，将该位是一的位的编号输出（2，3，4，5，7），这样就达到了排序的目的。

2.2bit映射

假设需要排序或者查找的总数N=10000000，那么我们需要申请一个数组 int a[1 + N/32]，作为bitmap，其中：a[0]在内存中占32为可以对应十进制数0-31，依次类推：
bitmap表为：
a[0]--------->0-31
a[1]--------->32-63
a[2]--------->64-95
a[3]--------->96-127
..........

2.3优点

1）占用内存少，比如N=10000000（1千万），只需占用内存为N/8=1250000Byte=1.25M

2）运算效率高，可以通过进行位操做实现

2.4缺点

所存的数据不能重复。即不可对重复的数据进行排序和查找

3.代码实现
```
#define N 1000000    //1千万

int arr[1 + (N >> 5)] = { 0 };//申请内存的大小，num>>5等价于num/32

//设置num所在的bit为1
void set(int num)
{
    arr[num >> 5] |= (1 << (num & 0x1F));//num&0x1F等价于num%31
}

//设置num所在的bit为0
void del(int num)
{
    arr[num >> 5] &= ~(1 << (num & 0x1F));//~：非
}

//测试num所在的bit是否为1
bool test(int num)
{
    return arr[num >> 5] & (1 << (num & 0x1F));
}
```
4.应用实例

1、给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中

　　首先，将这40亿个数字存储到bitmap中，然后对于给出的数，判断是否在bitmap中即可。

2、使用位图法判断int数组是否存在重复

　　遍历数组，一个一个放入bitmap，并且检查其是否在bitmap中出现过，如果没出现则放入，否则即为重复的元素。

3、使用位图法进行int数组排序

　　首先遍历数组，得到数组的最大最小值，然后根据这个最大最小值来缩小bitmap的范围。这里需要注意对于int的负数，都要转化为unsigned int来处理，而且取位的时候，数字要减去最小值。从bitmap中取出数时，再在取出时转化成int。

4、在2.5亿个int整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数

　　参考的一个方法是：采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义），内存仅需要 2.5x10⁸bit/8/1024/1024x2=60M。其实，这里可以使用两个普通的Bitmap，即第一个Bitmap存储的是整数是否出现，如果再次出现（也就是重复了）则在第二个Bitmap中存入，最后再比对这两个bitmap，选出不重复的数，这样的话，就可以使用简单的1- Bitmap了。

5、在本地磁盘里面有file1和file2两个文件，每一个文件包含500万条随机整数（可以重复），最大不超过2147483648也就是一个int表示范围。要求写程序将两个文件中都含有的整数输出到一个新文件中。

　　先将file1中的500万条随机整数存进bitmap中（虽然可能有重复，但是重复不影响），再一个一个依次读入file2中的数，使用bitmap进行判重

参考资料：

https://blog.csdn.net/hguisu/article/details/7880288
相关阅读:
不使用SpringBoot如何将原生Feign集成到Spring中来简化http调用
 干货！从Tomcat执行流程了解jsp是如何被解析的，错误提示是哪里生成的。
对TCP三次握手四次分手还不清楚的速度进，超简单解析，明白了就很好记！
SpringCache与redis集成，优雅的缓存解决方案
 高可用的Spring FTP上传下载工具类（已解决上传过程常见问题）
Hibernate级联之一对多和inverse解析
 Spring的面向切面
 归并排序：步骤讲解与代码实现
 关于操作系统中多个fork()会创建几个进程的理解
 win-sudo插件解决Git bash 执行脚本报错问题 bash: sudo: command not found
原文地址：https://www.cnblogs.com/Joezzz/p/10276367.html

1.概念

2.原理

2.1基本原理

2.2bit映射

2.3优点

2.4缺点

3.代码实现

4.应用实例