编程之美求二进制中1的个数

编程之美求二进制中1的个数
求二进制中1的个数。对于一个字节（8bit）无符号整形变量，求其二进制表示中"1"的个数，要求算法的执行效率尽可能的高。

我们首先看看无符号字节类型，c中char中默认是signed的，写一段代码：
```
int main()
{
     char a='€';
    printf("%d",a+0);
}
```
```
€的代码是128（ascii表：http://www.weste.net/tools/ASCII.asp），超出了char的范围-128-127;结果输出：
-128.
加上unsigned后，unsigned char a='€';结果输出：
128.
根据题目的要求，我们要用unsigned char，我们可以用typeddef重定义：
typedef unsigned char Byte;
```
解法1：

可以举一个八位的二进制例子来进行分析。对于二进制操作，我们知道，除以一个2，原来的数字将会减少一个0。如果除的过程中有余，那么就表示当前位置有一个1。

以10 100 010为例；

第一次除以2时，商为1 010 001，余为0。

第二次除以2时，商为101 000，余为1。

因此，可以考虑利用整型数据除法的特点，通过相除和判断余数的值来进行分析。于是有了如下的代码。
```
int count(Byte v)
{
    int num=0;
    while(v)
    {
        if(v%2==1)
        {
            num++;
        }
       
        v/=2;
    }
    return num;
}
```
刚开始，main函数代码如下：
```
int main()
{
     
    Byte a;
    scanf("%c",&a);
    int num=count(a);
    printf("%d
",num);
     
}
```
结果总是错误，我输入a输出3。调试时发现vmod2，v/=2是以ascii码计算的，除后v=48，这么得3的。规律；

字符与数学相运算总是以ascii形式。

发现审题错误，

一个字节（8bit）无符号整形变量。定义Byte定义错了。

应该定义成

typedef unsigned short
c语言无符号整数怎么定义

整型变量的分类：基本整型：int 短整型：short int 长整型：long int对以上三类加上修饰符unsigned以指定是“无符号数”。如果加上修饰符singed，则指定的是“有符号数”，如果既不指定为signed也不指定是unsigned，则隐含为有符号（signed）。

无符号整数的陷阱

请问以下代码的输出？

unsigned int a=1,

int b=-2; int c=-2;

cout<<b<<endl; if(a+c>0)

cout<<a+b<<endl;

运行结果：

4294967294

4294967295

Press any key to continue

首先，程序的第一行，变量b和a一样，都是无符号整型，这是一个陷阱。

其次，在32位系统中，int的范围是-2147483648~+2147483647，而unsigned int的范围是0~4294967295。负数在无符号整型中用补码表示，所以b是4294967294。

第三，int默认为signed int，它与unsigned int运算时，结果被转换为unsigned int，所以a是4294967295。

short int 和 long int可以缩写为short 和 long。

现在遇到的难题是：如何定义一个字节的无符号整形。

在C中是无法定义一个字节的整形的。没办法，只能定义short类型了.

typedef unsigned short int Byte;
int main() { Byte a; scanf("%u",&a); //改为%hu就正确了。 int num=count(a); printf("%d ",num); }
%u Unsigned decimal integer

% i或d Signed decimal integer。

格式控制：http://www.cplusplus.com/reference/cstdio/printf/

我们的是无符号的short，用%u，但是%u是int类型的，有问题吗？

运行，输入10后能正确得出结果，但会出现runtime error：

stack around the variable 'a' was corrupted.

显然是控制符的问题。

转载的一篇文章：
符号属性     长度属性     基本型     所占位数     取值范围       输入符举例      输出符举例

--            --          char         8         -2^7 ~ 2^7-1        %c          %c、%d、%u

signed        --          char         8         -2^7 ~ 2^7-1        %c          %c、%d、%u

unsigned      --          char         8         0 ~ 2^8-1           %c          %c、%d、%u

[signed]      short       [int]        16        -2^15 ~ 2^15-1              %hd

unsigned      short       [int]        16        0 ~ 2^16-1             %hu 、%ho、%hx

[signed]      --           int         32        -2^31 ~ 2^31-1              %d

unsigned      --          [int]        32        0 ~ 2^32-1              %u 、%o、%x

[signed]      long        [int]        32        -2^31 ~ 2^31-1              %ld

unsigned      long        [int]        32        0 ~ 2^32-1             %lu 、%lo、%lx

[signed]      long long   [int]        64        -2^63 ~ 2^63-1             %I64d

unsigned      long long   [int]        64        0 ~ 2^64-1          %I64u、%I64o、%I64x

--            --          float        32       +/- 3.40282e+038         %f、%e、%g

--            --          double       64       +/- 1.79769e+308 %lf 、%le、%lg   %f、%e、%g

--            long        double       96       +/- 1.79769e+308        %Lf 、%Le、%Lg

上面表有些有错误，正确表看cplusplus。

从上表可以看出，对于unsigned short int，应该使用%hu,对于

unsigned long int,应该使用 %lu;

只写unsigned 表示unsigned int;

几点说明：

1. 注意! 表中的每一行，代表一种基本类型。“[]”代表可省略。

   例如：char、signed char、unsigned char是三种互不相同的类型；

   int、short、long也是三种互不相同的类型。

   可以使用C++的函数重载特性进行验证，如:

   void Func(char ch) {}

   void Func(signed char ch) {}

   void Func(unsigned char ch) {}

   是三个不同的函数。

2. char/signed char/unsigned char型数据长度为1字节；

   char为有符号型，但与signed char是不同的类型。

   注意! 并不是所有编译器都这样处理，char型数据长度不一定为1字节，char也不一定为有符号型。

3. 将char/signed char转换为int时，会对最高符号位1进行扩展，从而造成运算问题。

   所以,如果要处理的数据中存在字节值大于127的情况，使用unsigned char较为妥当。

   程序中若涉及位运算，也应该使用unsigned型变量。

4. char/signed char/unsigned char输出时，使用格式符%c（按字符方式）；

   或使用%d、%u、%x/%X、%o，按整数方式输出；

   输入时，应使用%c，若使用整数方式，Dev-C++会给出警告，不建议这样使用。

5. int的长度，是16位还是32位，与编译器字长有关。

   16位编译器（如TC使用的编译器）下，int为16位；32位编译器（如VC使用的编译器cl.exe）下，int为32

位。

6. 整型数据可以使用%d（有符号10进制）、%o（无符号8进制）或%x/%X（无符号16进制）方式输入输出。

   而格式符%u，表示unsigned，即无符号10进制方式。

7. 整型前缀h表示short，l表示long。

   输入输出short/unsigned short时，不建议直接使用int的格式符%d/%u等，要加前缀h。

   这个习惯性错误，来源于TC。TC下，int的长度和默认符号属性，都与short一致，

   于是就把这两种类型当成是相同的，都用int方式进行输入输出。

8. 关于long long类型的输入输出：

   "%lld"和"%llu"是linux下gcc/g++用于long long int类型(64 bits)输入输出的格式符。

   而"%I64d"和"%I64u"则是Microsoft VC++库里用于输入输出__int64类型的格式说明。

   Dev-C++使用的编译器是Mingw32，Mingw32是x86-win32 gcc子项目之一，编译器核心还是linux下的gcc。

   进行函数参数类型检查的是在编译阶段，gcc编译器对格式字符串进行检查，显然它不认得"%I64d"，

   所以将给出警告“unknown conversion type character `I' in format”。对于"%lld"和"%llu"，gcc理

所当然地接受了。

   Mingw32在编译期间使用gcc的规则检查语法，在连接和运行时使用的却是Microsoft库。

   这个库里的printf和scanf函数当然不认识linux gcc下"%lld"和"%llu"，但对"%I64d"和"%I64u"，它则是

乐意接受，并能正常工作的。

9. 浮点型数据输入时可使用%f、%e/%E或%g/%G，scanf会根据输入数据形式，自动处理。

   输出时可使用%f（普通方式）、%e/%E（指数方式）或%g/%G（自动选择）。

10. 浮点参数压栈的规则：float(4 字节)类型扩展成double(8 字节)入栈。

    所以在输入时，需要区分float(%f)与double(%lf)，而在输出时，用%f即可。

    printf函数将按照double型的规则对压入堆栈的float(已扩展成double)和double型数据进行输出。

    如果在输出时指定%lf格式符，gcc/mingw32编译器将给出一个警告。

11. Dev-C++(gcc/mingw32)可以选择float的长度，是否与double一致。

12. 前缀L表示long（double）。

    虽然long double比double长4个字节，但是表示的数值范围却是一样的。

    long double类型的长度、精度及表示范围与所使用的编译器、操作系统等有关。

转自：http://hi.baidu.com/dhh1216_cgcg/blog/item/3c6b3a79679ddfe12e73b3c9.html
【解法二】使用位操作

前面的代码看起来比较复杂。我们知道，向右移位操作同样也可以达到相除的目的。唯一不同之处在于，移位之后如何来判断是否有1存在。对于这个问题，再来看看一个八位的数字：10 100 001。

在向右移位的过程中，我们会把最后一位直接丢弃。因此，需要判断最后一位是否为1，而"与"操作可以达到目的。可以把这个八位的数字与00000001进行"与"操作。如果结果为1，则表示当前八位数的最后一位为1，否则为0。代码如下：
```
int count(Byte v)
{
    int num=0;
    while(v)
    {
         
        num+=v& 0x01;
         
        v/=2;
    }
    return num;
}
```
【解法三】

位操作比除、余操作的效率高了很多。但是，即使采用位操作，时间复杂度仍为O（log2v），log2v为二进制数的位数。那么，还能不能再降低一些复杂度呢？如果有办法让算法的复杂度只与"1"的个数有关，复杂度不就能进一步降低了吗？

同样用10 100 001来举例。如果只考虑和1的个数相关，那么，我们是否能够在每次判断中，仅与1来进行判断呢？

为了简化这个问题，我们考虑只有一个1的情况。例如：01 000 000。

如何判断给定的二进制数里面有且仅有一个1呢？可以通过判断这个数是否是2的整数次幂来实现。另外，如果只和这一个"1"进行判断，如何设计操作呢？我们知道的是，如果进行这个操作，结果为0或为1，就可以得到结论。

如果希望操作后的结果为0，01 000 000可以和00 111 111进行"与"操作。

这样，要进行的操作就是 01 000 000 &（01 000 000 - 00 000 001）= 01 000 000 &

00 111 111 = 0。

因此就有了解法三的代码：
```
int count(Byte v)
{
    int num=0;
    while(v)
    {
        v &= (v-1);
        num++;
    }
    return num;
}
```
如110，

110&（101）=100 每次与都会减去最后一个1.

100&（011）=000

num=2；正确。

【解法四】使用分支操作

解法三的复杂度降低到O（M），其中M是v中1的个数，可能会有人已经很满足了，只用计算1的位数，这样应该够快了吧。然而我们说既然只有八位数据，索性直接把0~255的情况都罗列出来，并使用分支操作，可以得到答案，代码如下：

代码清单2-4
int Count(int v) { int num = 0; switch (v) { case 0x0: num = 0; break; case 0x1: case 0x2: case 0x4: case 0x8: case 0x10: case 0x20: case 0x40: case 0x80: num = 1; break; case 0x3: case 0x6: case 0xc: case 0x18: case 0x30: case 0x60: case 0xc0: num = 2; break; //... } return num; }
View Code
解法四看似很直接，但实际执行效率可能会低于解法二和解法三，因为分支语句的执行情况要看具体字节的值，如果a =0，那自然在第1个case就得出了答案，但是如果a =255，则要在最后一个case才得出答案，即在进行了255次比较操作之后！

看来，解法四不可取！但是解法四提供了一个思路，就是采用空间换时间的方法，罗列并直接给出值。如果需要快速地得到结果，可以利用空间或利用已知结论。这就好比已经知道计算1+2+ … +N的公式，在程序实现中就可以利用公式得到结论。

最后，得到解法五：算法中不需要进行任何的比较便可直接返回答案，这个解法在时间复杂度上应该能够让人高山仰止了。

【解法五】查表法

代码清单2-5

这是个典型的空间换时间的算法，把0~255中"1"的个数直接存储在数组中，v作为数组的下标，countTable[v]就是v中"1"的个数。算法的时间复杂度仅为O（1）。

在一个需要频繁使用这个算法的应用中，通过"空间换时间"来获取高的时间效率是一个常用的方法，具体的算法还应针对不同应用进行优化。

扩展问题

1. 如果变量是32位的DWORD，你会使用上述的哪一个算法，或者改进哪一个算法？

2. 另一个相关的问题，给定两个正整数（二进制形式表示）A和B，问把A变为B需要改变多少位（bit）？也就是说，整数A 和B 的二进制表示中有多少位是不同的？

(首先A异或B，得到C，再求C中1的个数）。

对于32位的DWORD，可以动态建表或静态建表
1）动态建表
由于表示在程序运行时动态创建的，所以速度上肯定会慢一些，把这个版本放在这里，有两个原因
        1.填表的方法，这个方法的确很巧妙。
        2.类型转换，这里不能使用传统的强制转换，而是先取地址再转换成对应的指针类型。
代码如下：
       int BitCount(unsigned int n)
       {

    // 建表
    unsigned char BitsSetTable256[256] = {0} ;

    // 初始化表
    for (int i = 0; i < 256; i++)
    {
        BitsSetTable256[i] = (i & 1) + BitsSetTable256[i / 2];
    }

    unsigned int c = 0 ;

    // 查表
    unsigned char * p = (unsigned char *) &n ;

    c = BitsSetTable256[p[0]] + BitsSetTable256[p[1]] +
            BitsSetTable256[p[2]] + BitsSetTable256[p[3]];

    return c ;
}
先说一下填表的原理，根据奇偶性来分析，对于任意一个正整数n

1.如果它是偶数，那么n的二进制中1的个数与n/2中1的个数是相同的，比如4和2的二进制中都有一个1，6和3的二进制中都有两个1。

为啥？因为n是由n/2左移一位而来，而移位并不会增加1的个数。

2.如果n是奇数，那么n的二进制中1的个数是n/2中1的个数+1，比如7的二进制中有三个1，7/2 = 3的二进制中有两个1。

为啥？因为当n是奇数时，n相当于n/2左移一位再加1。

再说一下查表的原理

对于任意一个32位无符号整数，将其分割为4部分，每部分8bit，对于这四个部分分别求出1的个数，再累加起来即可。而8bit对应2^8 = 256种01组合方式，这也是为什么表的大小为256的原因。

注意类型转换的时候，先取到n的地址，然后转换为unsigned char*，这样一个unsigned int（4 bytes）对应四个unsigned char（1 bytes），分别取出来计算即可。举个例子吧，以87654321（十六进制）为例，先写成二进制形式-8bit一组，共四组，以不同颜色区分，这四组中1的个数分别为4，4，3，2，所以一共是13个1，如下面所示。

10000111 01100101 01000011 00100001 = 4 + 4 + 3 + 2 = 13
2）静态建表

首先构造一个包含256个元素的表table，table[i]即i中1的个数，这里的i是[0-255]之间任意一个值。然后对于任意一个32bit无符号整数n，我们将其拆分成四个8bit，然后分别求出每个8bit中1的个数，再累加求和即可，这里用移位的方法，每次右移8位，并与0xff相与，取得最低位的8bit，累加后继续移位，如此往复，直到n为0。所以对于任意一个32位整数，需要查表4次。以十进制数2882400018为例，其对应的二进制数为10101011110011011110111100010010，对应的四次查表过程如下：红色表示当前8bit，绿色表示右移后高位补零。

第一次（n & 0xff） 10101011110011011110111100010010

第二次（(n >> 8) & 0xff） 00000000101010111100110111101111

第三次（(n >> 16) & 0xff）00000000000000001010101111001101

第四次（(n >> 24) & 0xff）00000000000000000000000010101011
代码如下：

int BitCount7(unsigned int n)
{
        unsigned int table[256] =
        {
            0, 1, 1, 2, 1, 2, 2, 3, 1, 2, 2, 3, 2, 3, 3, 4,
            1, 2, 2, 3, 2, 3, 3, 4, 2, 3, 3, 4, 3, 4, 4, 5,
            1, 2, 2, 3, 2, 3, 3, 4, 2, 3, 3, 4, 3, 4, 4, 5,
            2, 3, 3, 4, 3, 4, 4, 5, 3, 4, 4, 5, 4, 5, 5, 6,
            1, 2, 2, 3, 2, 3, 3, 4, 2, 3, 3, 4, 3, 4, 4, 5,
            2, 3, 3, 4, 3, 4, 4, 5, 3, 4, 4, 5, 4, 5, 5, 6,
            2, 3, 3, 4, 3, 4, 4, 5, 3, 4, 4, 5, 4, 5, 5, 6,
            3, 4, 4, 5, 4, 5, 5, 6, 4, 5, 5, 6, 5, 6, 6, 7,
            1, 2, 2, 3, 2, 3, 3, 4, 2, 3, 3, 4, 3, 4, 4, 5,
            2, 3, 3, 4, 3, 4, 4, 5, 3, 4, 4, 5, 4, 5, 5, 6,
            2, 3, 3, 4, 3, 4, 4, 5, 3, 4, 4, 5, 4, 5, 5, 6,
            3, 4, 4, 5, 4, 5, 5, 6, 4, 5, 5, 6, 5, 6, 6, 7,
            2, 3, 3, 4, 3, 4, 4, 5, 3, 4, 4, 5, 4, 5, 5, 6,
            3, 4, 4, 5, 4, 5, 5, 6, 4, 5, 5, 6, 5, 6, 6, 7,
            3, 4, 4, 5, 4, 5, 5, 6, 4, 5, 5, 6, 5, 6, 6, 7,
            4, 5, 5, 6, 5, 6, 6, 7, 5, 6, 6, 7, 6, 7, 7, 8
    };

    return      table[n & 0xff] +
                    table[(n >> 8) & 0xff] +
                    table[(n >> 16) & 0xff] +
                    table[(n >> 24) & 0xff] ;
}

更多很巧解法：

参考：

http://blog.csdn.net/wangjun_1218/article/details/4464129

http://www.cnblogs.com/graphics/archive/2010/06/21/1752421.html

http://blog.csdn.net/jiqiren007/article/details/6403133

http://blog.csdn.net/justpub/article/details/2292823
相关阅读:
批量执行工具PSSH详解
 详解IPTABLES
nginx启动脚本
 ansible离线安装
 Linux性能评估工具
 Python中路径操作
 mongodb Enable Auth
MySQL配置参数说明
 redis未授权访问
 php反序列化笔记
原文地址：https://www.cnblogs.com/youxin/p/3233954.html

编程之美求二进制中1的个数

c语言无符号整数怎么定义

无符号整数的陷阱