《编程之美》一个二进制趣题的讨论 · Aiur

问题很简单，给定一个 8 位整型，要求写程序计算这个数的二进制表示中 1 的个数，要求算法的执行效率尽可能的高。

先来看看样章上给出的几个算法：

解法一，每次除二，看是否为奇数，是的话就累计加一，最后这个结果就是二进制表示中1的个数。

解法二，同样用到一个循环，只是里面的操作用位移操作简化了。

int Count(int v)
{
    int num = 0;
    while (v) {
        num += v & 0x01;
        v >>= 1;
    }
    return num;
}

解法三，用到一个巧妙的与操作，v & (v - 1) 每次能消去二进制表示中最后一位 1，利用这个技巧可以减少一定的循环次数。

解法四，查表法，因为 8 位整型的范围是 0 - 255，可以直接把结果保存在一张表中，然后查表就行。书上强调这个算法的复杂度为 O(1)。

int countTable[256] = { 0, 1, 1, 2, 1, ...,  7, 7, 8 };

int Count(int v) {
    return countTable[v];
}

好了，这就是样章上给出的四种方案，下面谈谈我的看法。

首先是对算法的衡量上，复杂度真的是唯一的标准吗？尤其对于这种数据规模给定，而且很小的情况下，复杂度其实是个比较次要的因素。

查表法的复杂度为 O(1)，用解法一，循环次数不会超过 8 次，所以时间复杂度也是 O(1)。至于数据规模变大，例如变成 32 位整型，那查表法自然也不合适了。

其次，既然是一个执行时间很短的操作，衡量的尺度也必然要小，CPU 时钟周期可以作为参考单位。

解法一里有若干次整数加法，若干次整数除法（一般的编译器都能把它优化成位移），还有几个循环分支判断，几个奇偶性判断（这个比较耗时间，根据 CSAPP 上的数据，一般一个 branch penalty 得耗掉 14 个左右的 cycle），加起来大概几十个 cycle 吧。

再看解法四，查表法看似一次地址计算就能解决，但实际上它用到了查表访存操作，而访存的时候很有可能那个数组不在 cache 里，需要从内存重新读取。这样一个 cache miss 导致的后果可能就是耗去几十甚至上百个 cycle（因为要访问内存）。所以实际情况中这个算法的性能是很差的。

这里我再推荐几个解决这个问题的算法，以 32 位无符号整型为例。

int Count(unsigned x) {
    x = x - ((x >> 1) & 0x55555555);
    x = (x & 0x33333333) + ((x >> 2) & 0x33333333);
    x = (x + (x >> 4)) & 0x0F0F0F0F;
    x = x + (x >> 8);
    x = x + (x >> 16);
    return x & 0x0000003F;
}

这里用的是二分法，两两一组相加，之后四个四个一组相加，接着八个八个，最后就得到各位之和了。

还有一个更巧妙的 HAKMEM 算法

int Count(unsigned x) {
   unsigned n;

   n = (x >> 1) & 033333333333;
   x = x - n;
   n = (n >> 1) & 033333333333;
   x = x - n;
   x = (x + (x >> 3)) & 030707070707;
   x = x % 63;
   return x;
}

用了二分法，先将二进制表示分组，每三位一组，并求出每组中 1 的个数。然后相邻两组归并，分组变成了每六位一组。最后除 63 取余得到结果。因为 26 = 64，也就是说 x0 + x1 * 64 + x2 * 64 * 64 = x0 + x1 + x2 (mod 63) （这里的等号表示同余）。

这个程序只需要十条左右指令，虽然有除法指令，但是由于不访存，速度还是会比较快。

综上，衡量一个算法实际效果不单要看复杂度，还要结合其他情况具体分析。关于书后的两道扩展问题，问题一是问 32 位整型如何处理，这个上面已经讲了。问题二是给定两个整数 A 和 B，问 A 和 B 有多少位是不同的。这个问题可以规约到数 1 问题——只要先算出 A 和 B 的异或结果，然后求这个值中 1 的个数就行了。