昨天看了一些C语言问题(http://www.gowrikumar.com/c/)以及国内几个Geeks的解答(http://wangcong.org/blog/?p=291,http://www.matrix67.com/blog/archives/429),看来自己的C基础还是可以的,没遇到什么大问题。有时候自己也去分析过IOCCC(http://www.ioccc.org/)的代码,或多或少可以学到一些东西。尽管听起来都像是“‘回’字有四样写法”的那样。
说几条我最近想到的问题及其解答,都是关于sizeof的:
1、sizeof(i++)之后,i的值会怎样?答案是不变。记得大一初学C语言时想研究一下sizeof与函数有什么区别,得到的结果只是一些语法上的差别;学了汇编之后看看编译器生成的代码,才发现sizeof在编译时直接给定了一个常值,而非在运行时求值。进而又分析过sizeof(表达式)的结果,清楚了类型提升原理。但我之前没有注意过表达式中出现副作用的问题,于是在sizeof(i++)的问题上犹豫了。现在经过查阅资料和实验,结论是:sizeof在大多数情况下是编译时定值的,表达式中的任何副作用(包括有副作用的运算符、函数调用等)都不会发生。这里说“大多数情况”,排除了针对C99的新特性——不定长数组(variable length array)的特例。参考这篇文章(http://rednaxelafx.javaeye.com/blog/225909),如果sizeof运算符的参数是一个不定长数组,则该需要在运行时计算数组长度。
2、sizeof('a')的结果是多少?这个要看是在C中还是C++中了。根据C99标准的规定,'a'叫做整型字符常量(integer character constant),为int型,故结果是4(对于32位机器);而ISO C++规定,'a'叫做字符字面量(character literal),为char型,故结果是1。C强调了'a'的“数”属性,而C++强调了'a'的“字符”属性。
3、sizeof('ab')的结果又是多少?'ab'这种语法我以前没有注意到。经查,这叫做“多字节字符常量”(multi-character character constant),它限制在单引号中包含2至4个字节。根据标准,多字节字符常量的语义由编译器的实现决定。在我测试的gcc 4.0和VS2008中,如果int a = 'abcd',则a == 0x61626364。sizeof('ab') == sizeof('abc') == sizeof('abcd') == 4。
4、那么sizeof(L'a')呢?虽然wchar_t是在源代码级可移植的宽字符,但其大小依赖于操作系统或编译器的定义。无论C或C++,wchar_t字面量本身就是wchar_t类型的常量,所以sizeof(L'a')就等于sizeof(wchar_t)。在我在32位Windows和Linux平台下分别为2和4。
5、至于sizeof(L'ab')、sizeof(L'中')、sizeof(L'中国')又会如何?宽字符常量的单引号中出现多个字节构成的单个字符(如L'中')是合法的,对它取sizeof,结果等于具体实现下的sizeof(wchar_t)。但出现多个字节构成的多个字符(如L'ab'、L'中国')则是没有定义的,编译器可能报错,也可能给出不同的实现。在我测试的gcc4.0和VS2008中,L'abcd'分别返回了0x64和0x61。对它们取sizeof,结果等于具体实现下的sizeof(wchar_t),但注意这是标准未定义的,不应该确信。
这些东西在现实的工程中很少用到,毕竟自己写代码的时候都偏向于保守的、确保清晰而正确的方法。但在求职面试之类的场合,sizeof还是一个比较重要的考点,钻一钻牛角尖是值得的。