unicode与ansi下字符详解

unicode与ansi下字符详解

最近在学习时老是碰到CString的字符串要转换为char*的问题，在此总结一下unicode工程下的字符串处理问题。

①、Ansi与Unicode简要说明及各自的优缺点：
他们是两种字符的编码格式，Ansi=窄字节，Unicode=宽字节，Ansi用char格式表示一个字符，占用一个字节的存储空间，最多表示255个字符，表示英文还可以，但对于中文、日文、韩文等语言来说就不够用了，所以如果你的程序是Ansi编码的话，那么你写的中文语言的程序拿到日文、韩文等系统上面就会出现乱码。所以有了Unicode，用二个字节去表示一个字符，格式是 unsigned short，被定义成 wchar_t 格式这样就可以表示世界上绝大多数的语言了！但有利就有弊，缺点呢？就是空间占用翻倍了，网络传输的数据量也增大了（double）

网摘：Windows 2000 及其以后的 Xp、2003、Vista、Win7 等系统都是使用Unicode从头进行开发的，如果调用任何一个Windows API 函数并给它传递一个 ANSI 字符串，那么系统首先要将字符串转换成Unicode，然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串，系统就会先将Unicode字符串转换成ANSI字符串，然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。为了避免系统转换消耗的资源通常都使用unicode。

②、不同编码格式下的字符串处理及相互转化：

◆ 大家在编程时经常遇到的数据类型：（以下对应的都是一样的）
● Ansi：
char、char * 、const char *
CHAR、(PCHAR、PSTR、LPSTR)、LPCSTR

● Unicode：
wchar_t、wchar_t * 、const wchar_t *
WCHAR、(PWCHAR、PWSTR、LPWSTR)、LPCWSTR

● T 通用类型：
TCHAR、(TCHAR * 、PTCHAR、PTSTR、LPTSTR)、LPCTSTR

以上，其中：P代表指针的意思，STR代表字符串的意思，L是长指针的意思，在WIN32平台下可以忽略，C代表const常量的意思，W代表wide宽字节的意思，T表示模板，也就是通用的意思，在使用时系统会根据当前的工程性质进行转换。例如在unicode下，TCHAR其实就是wchar_t，否则就被定义成char。

◆ 字符串类型的对象的定义：
● Ansi：char *pAnsiStr = "hello";
● Unicode：wchar_t *pUnicodeStr = "hello";
● 通用类型：TCHAR *pTStr = _T("hello"); 或者 TCHAR *pTStr = _TEXT("hello");（_T,_TEXT是一个意思）
● 动态申请内存：TCHAR *pszBuf = new TCHAR[100];

◆ 常用的字符串处理函数，具体信息见MSDN：
字符串长度：
● Ansi：strlen(char *str);
● Unicode：wcslen(wchar_t *str);
● 通用函数：_tcslen(TCHAR *str);

● Ansi：int atoi(const char *str);
● Unicode：int _wtoi(const wchar_t *str);
● 通用函数：_tstoi(const TCHAR *str);

字符串拷贝：
● Ansi：strcpy(char *strDestination, const char *strSource);
● Unicode：wcscpy(wchar_t *strDestination, const wchar_t *strSource);
● 通用函数：_tcscpy(TCHAR *strDestination, const TCHAR *strSource);

以上函数不安全，在vs2003等以上版本的编译器中会有warnning警告提示，以下为安全函数（vc++6.0不支持）：
● Ansi：strcpy_s(char *strDestination, size_t numberOfElements, const char *strSource);
● Unicode：wcscpy_s(wchar_t *strDestination, size_t numberOfElements, const wchar_t *strSource);
● 通用函数：_tcscpy_s(TCHAR *strDestination, size_t numberOfElements, const TCHAR *strSource);

numberOfElements
Size of the destination string buffer. 目的缓冲区的大小，以字节为单位，不是字符！
size_t unsigned integer，在MSDN中的解释：Result of sizeof operator，也就是说 size_t 是 unsigned integer 即无符号整数。那为什么会有size_t这个类型呢？
因为不同平台的操作系统(32/64)中 int/long 等类型所占的字节并不一样，而 size_t 在不同的平台下有不同的定义。有点类似于TCHAR类型：
#ifndef _SIZE_T_DEFINED
#ifdef _WIN64
typedef unsigned __int64 size_t; //8个字节，64位
#else
typedef _W64 unsigned int size_t; //4个字节，32位
#endif
#define _SIZE_T_DEFINED
#endif

◆ Ansi 与 Unicode 字符串类型的互相转换：
上面给大家介绍的都是窄字节就是窄字节，宽字节就是宽字节，那么下面就给大家介绍下他们两个之间的转换。
在程序中还是不建议大家来回来去的进行字符串编码的转换，要么就都使用Ansi，要么就都使用Unicode，
但是呢，往往有些 API 函数只提供了窄字节版本（比如：GetProcAddress，见MSDN）或者只提供宽字节版本（比如：CommandLineToArgvW，见MSDN），
这个时候就要进行字符串编码格式的转换了。

但是，这里提醒下大家，不是所有的都需要转换，有一些是不需要转换的，比如 socket 中的 send 或者 recv 函数.
=================================================
◆ 字符串占用字节数：
● Ansi：
char szStr[] = "abc";
占用字节数求法：sizeof(szStr);

char *psz = "defgh";
占用字节数求法：strlen(psz)*sizeof(char);

● Unicode：
wchar_t szwStr[] = L"abc";
占用字节数求法：sizeof(szwStr);

wchar_t *pwsz = L"defgh";
占用字节数求法：wcslen(pwsz)*sizeof(wchar_t);

● 通用函数：
TCHAR szStr[] = _T("abc");
占用字节数求法：sizeof(szStr);

TCHAR *psz = _T("defgh");
占用字节数求法：_tcslen(psz)*sizeof(TCHAR);
=======================================================

● 转换用到的最根本的 API 函数：
WideCharToMultiByte 实现宽字节转换到窄字节
MultiByteToWideChar 实现窄字节转换到宽字节

● A2W、W2A、T2A、T2W 宏的使用以及注意事项：
其实这些宏根本上还是用到了上面的两个函数。
[1]、这些函数都是在栈中分配空间的。例如:A2W("abc")，就会在栈中分配一块内存存放'abc'
[2]使用上面的宏之前都要使用USES_CONVERSION宏

*unicode下CString与char*的转换：
CString转换为char*：使用wcstombs()函数
例子：
CString str;
str="你好，hello"；
char ch[50];
wcstombs(ch,str,siezof(ch));
这样的转换会出现问题，原因是str带有中文，如果带有中文还在之前使用setlocale(LC_ALL,""),要包含头文件<locale.h>;设置一下默认语言。

char*转换为CString:使用A2T()函数：
例子：
USES_CONVERSION;
char ch[5]="what";
CString str;
str=A2T(ch);

更多常用的呼唤方法大家可以baidu一下便知
相关阅读:
Spring IoC
Java软件安装
 Struts(一)
Struts(二)
Hibernate(六)
Hibernate(五)
Hibernate(二)
Hibernate(四)
Hibernate（三）
Hibernate（一）
原文地址：https://www.cnblogs.com/javawebsoa/p/3002605.html