问题1
在较新版本的 Python 中,当两个 int 相加溢出时,它会自动把把结果转换到 long 类型,比如:>>> 0x7FFFFFFF + 1 2147483648L这个特性很好,但是它跟 C 语言的结果不一样。如果你要把结果 pack 到 4 个字节的 buffer 中发送到别的进程,结果就比较纠结:
>>> import struct >>> struct.pack("i", 0x7FFFFFFF + 1) Traceback (most recent call last): File "<stdin>", line 1, in <module> struct.error: long too large to convert to int我在设计我的 webgame 网络协议时遇到了这个问题。
问题2
在不同的硬件平台,同一个函数的返回值也可能是不一样的,比如 hash(),在 32-bit 和 64-bit 都是返回 int,但大小却大有不同:>>> hash('copyright' * 10) # 32-bit platform -942199392 >>> hash('copyright' * 10) # 64-bit platform -6555514777893392992想像一下你在 32-bit 下写了一个 k/v 存储的文件放到 64-bit 去读,或者反过来,是不是让你很抓狂?
问题3
在不同的 python 版本里,不少函数的返回值也是不一样的,举个例子,zlib 里的 crc32 函数,嗯,是的,别以为它以 32 结尾就一致了!以下引用自 python manuals:Changed in version 2.6: The return value is in the range [-2**31, 2**31-1] regardless of platform. In older versions the value is signed on some platforms and unsigned on others.看到了吧,zlib.crc32(及 zlib.adler32) 虽然跟 32/64 位平台无关,但是 3.x 和 2.x 版本的返回值范围是不一致的,想象一下你设计的网络协议采用了 crc/adler 算法来计算 checksum,然后用于 3.x 和 2.x 版本的 Python 程序通信,会不会想抓狂呢?
Changed in version 3.0: The return value is unsigned and in the range [0, 2**32-1] regardless of platform.
解决方案
解决方案显然是一致化,编写这些操蛋的函数的替代品,确保它们在不同的硬件、不同的版本下有同样的返回值。所以我就编写了自己版本的 add、hash、crc 和 adler 函数,确保它们的返回值为带符号的 32 位整型(即值范围 [-2**31, 2**31-1])。经过在 ubuntu 10.04 LTS 32-bit/64-bit + python 2.6/3.1 测试后,我们把它用在了我们的网络协议处理中。
后来,我把它打成了一个 lib,起名为 absolute32,扔到 google code 托管起来(http://code.google.com/p/absolute32/),同时在 pypi 注册一下,方便有需要的朋友使用它,算是为个小善。
absolute32 安装、使用
安装很简单,因为它已经上传到 pypi,所以简单地执行:easy_install -U absolute32就安装好啦,最后送上示例,享用吧,亲!
import absolute32 as a assert a.add(0x7FFFFFFF, 2) == -0x7FFFFFFF assert a.hash('copyright') == -174803930 assert a.adler(b'copyright') == 322503642 assert a.crc(b'copyright') == 947983859