转自:http://www.cnblogs.com/yaozhongxiao/archive/2010/08/08/1795338.html
1. 编译单元(模块):
在ide开发工具大行其道的今天,对于编译的一些概念很多人已经不再清楚了,很多程序员最怕的就是处理连接错误(link error) 因为它不像编译错误那样可以给出你程序错误的具体位置,你常常对这种错误感到懊恼,但是如果你经常使用gcc,makefile等工具在linux或者嵌入式下做开发工作的话,那么你可能非常的理解编译与连接的区别!当在vc这样的开发工具上编写完代码,点击编译按钮准备生成exe文件时,vc其实做了两步工作,第一步,将每个.cpp(.c)和相应.h文件编译成obj文件;第二步,将工程中所有的obj文件进行link生成最终的.exe文件,那么错误就有可能在两个地方产生,一个是编译时的错误,这个主要是语法错误,另一个是连接错误,主要是重复定义变量等。我们所说的编译单元就是指在编译阶段生成的每个obj文件,一个obj文件就是一个编译单元,也就是说一个cpp(.c)和它相应的.h文件共同组成了一个编译单元,一个工程由很多个编译单元组成,每个obj文件里包含了变量存储的相对地址等 。
2. 声明与定义的区别
函数或变量在声明时,并没有给它实际的物理内存空间,它有时候可以保证你的程序编译通过,但是当函数或变量定义的时候,它就在内存中有了实际的物理空间,如果你在编译模块中引用的外部变量没有在整个工程中任何一个地方定义的话, 那么即使它在编译时可以通过,在连接时也会报错,因为程序在内存中找不到这个变量!你也可以这样理解,对同一个变量或函数的声明可以有多次,而定义只能有一次!
3. extern的作用
extern有两个作用,第一个 当它与" c" 一起连用时,如: extern " c" void fun(int a int b) 则告诉编译器在编译fun这个函数名时按着c的规则去翻译相应的函数名而不是c++的, c++的规则在翻译这个函数名时会把fun这个名字变得面目全非,可能是fun abc_int_int#$也可能是别的,这要看编译器的" 脾气" 了(不同的编译器采用的方法不一样),为什么这么做呢,因为c++支持函数的重载啊,在这里不去过多的论述这个问题,如果你有兴趣可以去网上搜索,相信你可以得到满意的解释!
当extern不与" c" 在一起修饰变量或函数时,如在头文件中: extern int g_int 它的作用就是声明函数或全局变量的作用范围的关键字,其声明的函数和变量可以在本模块活其他模块中使用,记住它是一个声明不是定义!也就是说b模块(编译单元)要是引用模块(编译单元)a中定义的全局变量或函数时,它只要包含a模块的头文件即可 在编译阶段,模块b虽然找不到该函数或变量,但它不会报错,它会在连接时从模块a生成的目标代码中找到此函数。
如果你对以上几个概念已经非常明白的话,那么让我们一起来看以下几种全局变量/常量的使用区别:
1. 用extern修饰的全局变量
以上已经说了extern的作用,下面我们来举个例子 如:
在test1.h中有下列声明:
#ifndef test1h
#define test1h
extern char g_str[] // 声明全局变量g_str
void fun1()
#endif
在test1.cpp中
#include " test1.h"
char g_str[] = " 123456" // 定义全局变量g_str
void fun1()
{
cout < < g_str < < endl
}
以上是test1模块, 它的编译和连接都可以通过 如果我们还有test2模块也想使用g_str 只需要在原文件中引用就可以了
#include " test1.h"
void fun2()
{
cout < < g_str < < endl
}
以上test1和test2可以同时编译连接通过,如果你感兴趣的话可以用ultraedit打开test1.obj 你可以在里面着" 123456" 这个字符串 但是你却不能在test2.obj里面找到,这是因为g_str是整个工程的全局变量,在内存中只存在一份 test2.obj这个编译单元不需要再有一份了,不然会在连接时报告重复定义这个错误!
有些人喜欢把全局变量的声明和定义放在一起,这样可以防止忘记了定义,如把上面test1.h改为
extern char g_str[] = " 123456" // 这个时候相当于没有extern
然后把test1.cpp中的g_str的定义去掉 这个时候再编译连接test1和test2两个模块时,会报连接错误,这是因为你把全局变量g_str的定义放在了头文件之后,test1.cpp这个模块包含了test1.h所以定义了一次g_str 而 test2.cpp也包含了test1.h所以再一次定义了g_str 这个时候连接器在连接test1和test2时发现两个g_str。如果你非要把g_str的定义放在test1.h中的话,那么就把test2的代码中#include " test1.h" 去掉换成:
extern char g_str[]
void fun2()
{
cout < < g_str < < endl
}
这个时候编译器就知道g_str是引自于外部的一个编译模块了,不会在本模块中再重复定义一个出来,但是我想说这样做非常糟糕,因为你由于无法在test2.cpp中使用#include " test1.h" 那么test1.h中声明的其他函数你也无法使用了,除非也用都用extern修饰,这样的话你光声明的函数就要一大串,而且头文件的作用就是要给外部提供接口使用的,所以请记住, 只在头文件中做声明,真理总是这么简单。
2. 用static修饰的全局变量
首先,我要告诉你static与extern是一对“水火不容”的家伙,也就是说extern和static不能同时修饰一个变量;
其次,static修饰的全局变量声明与定义同时进行,也就是说当你在头文件中使用static声明了全局变量后,它也同时被定义了;
最后,static修饰全局变量的作用域只能是本身的编译单元,也就是说它的“全局”只对本编译单元有效,其他编译单元则看不到它。一般定义static全局变量时,都把它放在原文件中而不是头文件,这样就不会给其他模块造成不必要的信息污染,同样记住这个原则吧!
如:
test1.h:
#ifndef test1h
#define test1h
static char g_str[] = " 123456"
void fun1()
#endif
test1.cpp:
#include " test1.h"
void fun1()
{
cout < < g_str < < endl
}
test2.cpp
#include " test1.h"
void fun2()
{
cout < < g_str < < endl
}
以上两个编译单元可以连接成功 当你打开test1.obj时,你可以在它里面找到字符串" 123456" 同时你也可以在test2.obj中找到它们,它们之所以可以连接成功而没有报重复定义的错误是因为虽然它们有相同的内容,但是存储的物理地址并不一样,就像是两个不同变量赋了相同的值一样,而这两个变量分别作用于它们各自的编译单元。
也许你比较较真,自己偷偷的跟踪调试上面的代码 结果你发现两个编译单元(test1 test2)的g_str的内存地址相同,于是你下结论static修饰的变量也可以作用于其他模块,但是我要告诉你,那是你的编译器在欺骗你,大多数编译器都对代码都有优化功能,以达到生成的目标程序更节省内存,执行效率更高,当编译器在连接各个编译单元的时候,它会把相同内容的内存只拷贝一份,比如上面的" 123456" 位于两个编译单元中的变量都是同样的内容,那么在连接的时候它在内存中就只会存在一份了,如果你把上面的代码改成下面的样子,你马上就可以拆穿编译器的谎言:
test1.cpp:
#include " test1.h"
void fun1()
{
g_str[0] = ' ' a' '
cout < < g_str < < endl
}
test2.cpp
#include " test1.h"
void fun2()
{
cout < < g_str < < endl
}
void main()
{
fun1() // a23456
fun2() // 123456
}
这个时候你在跟踪代码时,就会发现两个编译单元中的g_str地址并不相同,因为你在一处修改了它,所以编译器被强行的恢复内存的原貌,在内存中存在了两份拷贝给两个模块中的变量使用。
正是因为static有以上的特性,所以一般定义static全局变量时,都把它放在原文件中而不是头文件,这样就不会给其他模块造成不必要的信息污染,同样记住这个原则吧!
3 const修饰的全局常量
const修饰的全局常量用途很广,比如软件中的错误信息字符串都是用全局常量来定义的。
const修饰的全局常量据有跟static相同的特性,即它们只能作用于本编译模块中,
但是const可以与extern连用来声明该常量可以作用于其他编译模块中
如
extern const char g_str[]
然后在原文件中别忘了定义:
const char g_str[] = " 123456"
所以当const单独使用时它就与static相同,而当与extern一起合作的时候,它的特性就跟extern的一样了!所以对const我没有什么可以过多的描述,我只是想提醒你,const char g_str = " 123456" 与 const char g_str[] = " 123465" 是不同的, 前面那个const 修饰的是char 而不是g_str 它的g_str并不是常量,它被看做是一个定义了的全局变量(可以被其他编译单元使用),所以如果你像让char g_str遵守const的全局常量的规则,最好这么定义const char const g_str=" 123456" .
================================================================================================
1. const char* Buffer = "Hello";
这里定义了一个指针,所指向的内容是不可以修改的,这个指针是 Buffer,它占据着sizeof(char*)大小的空间,它指向处于常量区的一段内存, 里面存储着'H' 'e' 'l' 'l' 'o' ' '这些东西。(把这个叫做"第一种情况")
2. const char Buffer [] Buffer = "Hello";
这里定义了一个字符数组,有6个元素,分别是'H' 'e' 'l' 'l' 'o' ' ', 占据着 6 * sizeof(char) 大小的空间,数组的名字叫做 Buffer,使用Buffer的时候,就相当于一个指向元素 'H' 的 char* 的指针,但是,Buffer并不是一个指针,没有占据空间,它仅仅代表着这个数组的起始位置。
3. static const char* Buffer = "Hello";
这里跟第一种情况相仿,但是因为 static 的存在,这个指针具有“文件作用域”, 就是说,仅仅在包含它的那个编译单元(".cpp文件")里面是可见的,记住这一点, 它很重要,一会会再次提到的。
4. const char* const Buffer = "Hello";
这里与第一种情况也很相仿,区别是,这个指针本身是常量,就是说,指针所占据的空间(注意不是它指向的空间),是不可修改的,而第一种情况可以,所以,如果在某个包含了这个头文件的cpp文件中,写下 C/C++ code
Buffer = "another Hello";
对于第一种情况是可以的,但在这里就会报错,说你企图修改常量,gcc 报错说: main.cpp|12|error: assignment of read-only variable `Buffer'
综上所述,这四个语句,按照顺序,分别定义了:
1、一个指向 char 的指针,其指向的内容是不可以修改的,
2、一个 char 数组,数组的元素是不可以修改的,Buffer是一个表示数组起始位置的符号,
3、一个具有“文件作用域”的指向 char 的指针,其指向的内容是不可修改的,
4、一个指向 char 的指针,其指向的内容是不可以修改的,该指针也不可以再指向别的位置。
现在说说为什么第一种情况会产生"multiple definition of `Buffer'"的问题:
首先,请注意,只有编译单元(.cpp文件)会被编译,而头文件不会, 头文件起作用的方式就是向.cpp文件中添加将要被编译的代码段, 所以,如果定义放在头文件中,又被不止一个编译单元包含了, 显然要产生“多次定义”的问题,这就是第一种情况导致链接错误的原因。 其余三个情况,没有出现链接错误的原因分两种情况:
1、static const char* Buffer = "Hello"; 这一行中的 static 告诉编译器,(const char* 类型的)变量 Buffer 具有“文件作用域”, 所以,每一个被产生出来的 Buffer 都只在产生它的那个编译单元中可见,所以没有导致链接错误。
2、绝对常量 a、const char Buffer [] Buffer = "Hello";
b 、const char* const Buffer = "Hello"; 这两行也都产生了相应的实体:
a 中产生的是具有 6 个元素的 char 数组,数组的名字仅仅是一个符号,不可能再赋予别的意义,
b中产生的是一个指向 const char 的指针,该指针被指定为“常指针”,不可以再指向别处,
这两种情况下,产生出来的所有内容都是不可变的,所以,编译器知道, 无论是 Buffer 还是使用 Buffer 访问到的内容,在任何情况下都是相同的, 于是,编译器就偷偷的让它们都具有“文件作用域”了,这就是为什么没有导致错误的原因。
如果把 a 改成: char Buffer [] Buffer = "Hello"; 同样会导致链接错误。 这个机制应该是从 C 语言继承过来的,它同时带来了一个漏洞, 如果在两个头文件里,都有通过“绝对常量”方式得到“文件作用域”的对象, 就留下了隐患,只要没有任何一个编译单元同时包含了这两个头文件, 就不会导致重定义的链接错误,但给系统留下了难以察觉的隐患