Windows API:
这里需要用到两个函数:WideCharToMultiByte 与 MultiByteToWideChar
前者是从宽字节转换为多字节,后者则相反,是从多字节转换为宽字节。下面介绍下这两个函数:
WideCharToMultiByte
该函数可以映射一个unicode字符串到一个多字节字符串,执行转换的代码页、接收转换字符串、允许额外的控制等操作。
WideCharToMultiByte( _In_ UINT CodePage, // 指定执行转换的代码页,这个参数可以为系统已安装或有效的任何代码页所给定的值 _In_ DWORD dwFlags, // 一组位标记用以指出是否未转换成预作或宽字符(若组合形式存在),是否使用象形文字替代控制字符,以及如何处理无效字符 _In_NLS_string_(cchWideChar) LPCWCH lpWideCharStr, // 指向将被转换的unicode字符串 _In_ int cchWideChar, // 指定由参数lpWideCharStr指向的缓冲区的字符个数。如果这个值为-1,字符串将被设定为以NULL为结束符的字符串,并且自动计算长度 _Out_writes_bytes_to_opt_(cbMultiByte, return) LPSTR lpMultiByteStr,// 指向接收被转换字符串的缓冲区 _In_ int cbMultiByte, // 指定由参数lpMultiByteStr指向的缓冲区最大值(用字节来计量)。若此值为零,函数返回lpMultiByteStr指向的目标缓冲区所必需的字节数,在这种情况下,lpMultiByteStr参数通常为NULL _In_opt_ LPCCH lpDefaultChar, // 遇到一个不能转换的宽字符,函数便会使用pDefaultChar参数指向的字符 _Out_opt_ LPBOOL lpUsedDefaultChar // 至少有一个字符不能转换为其多字节形式,函数就会把这个变量设为TRUE );
需要注意最后两个参数lpDefaultChar和pfUsedDefaultChar:只有当WideCharToMultiByte函数遇到一个宽字节字符,而该字符在uCodePage参数标识的代码页中并没有它的表示法时,WideCharToMultiByte函数才使用这两个参数。如果宽字节字符不能被转换,该函数便使用lpDefaultChar参数指向的字符。如果该参数是NULL(这是大多数情况下的参数值),那么该函数使用系统的默认字符。该默认字符通常是个问号。这对于文件名来说是危险的,因为问号是个通配符。pfUsedDefaultChar参数指向一个布尔变量,如果Unicode字符串中至少有一个字符不能转换成等价多字节字符,那么函数就将该变量置为TRUE。如果所有字符均被成功地转换,那么该函数就将该变量置为FALSE。当函数返回以便检查宽字节字符串是否被成功地转换后,可以测试该变量。
返回值:如果函数运行成功,并且cchMultiByte不为零,返回值是由 lpMultiByteStr指向的缓冲区中写入的字节数;如果函数运行成功,并且cchMultiByte为零,返回值是接收到待转换字符串的缓冲区所必需的字节数。如果函数运行失败,返回值为零。
MultiByteToWideChar
该函数可以映射一个多字节字符串到一个unicode字符串
MultiByteToWideChar( _In_ UINT CodePage, // 指定执行转换的字符集,这个参数可以为系统已安装或有效的任何字符集所给定的值 _In_ DWORD dwFlags, // 一组位标记用以指出是否未转换成预作或宽字符(若组合形式存在),是否使用象形文字替代控制字符,以及如何处理无效字符。 _In_NLS_string_(cbMultiByte) LPCCH lpMultiByteStr, // 指向将被转换字符串的字符。 _In_ int cbMultiByte, // 指定将被转换的字符串中字节的个数。如果lpMultiByteStr指定的字符串以空字符终止,可以设置为-1(如果字符串不是以空字符中止,设置为-1可能失败,可能成功),此参数设置为0函数将失败。 _Out_writes_to_opt_(cchWideChar, return) LPWSTR lpWideCharStr, // 指向接收被转换字符串的缓冲区 _In_ int cchWideChar // 指定接收被转换字符串缓冲区的宽字符个数。若此值为零,函数返回缓冲区所必需的宽字符数,在这种情况下,lpWideCharStr中的缓冲区不被使用。 );
返回值:如果函数运行成功,并且cchWideChar不为零,返回值是由lpWideCharStr指向的缓冲区中写入的宽字符数;如果函数运行成功,并且cchWideChar为零,返回值是接收到待转换字符串的缓冲区所需求的宽字符数大小。如果函数运行失败,返回值为零。
/************************************************************************/ /* Project: 宽字节与多字节互相转换 */ /* Author: LandyTan */ /* Time: 2017/11/04 */ /************************************************************************/ #include <iostream> #include <Windows.h> using namespace std; char* _WTA(__in wchar_t* pszInBufBuf, __in int nInSize, __out char** pszOutBuf, __out int* pnOutSize); wchar_t* _ATW(__in char* pszInBuf, __in int nInSize, __out wchar_t** pszOutBuf, __out int* pnOutSize); int main() { { char* pszIn = "Hello"; wchar_t* pszOut = NULL; int nOutSize = 0; if (!_ATW(pszIn, strlen(pszIn), &pszOut, &nOutSize)) cerr << "多字节转宽字节失败" << endl; else cout << "多字节:" << pszIn << " 宽字节:" << pszOut << endl; delete[] pszOut; pszOut = NULL; } { wchar_t* pszIn = L"Hello"; char* pszOut = NULL; int nOutSize = 0; if (!_WTA(pszIn, wcslen(pszIn), &pszOut, &nOutSize)) cerr << "宽字节转多字节失败" << endl; else cout << "宽字节:" << pszIn << " 多字节:" << pszOut << endl; delete[] pszOut; pszOut = NULL; } system("pause"); return 0; } /************************************************************************/ /* Name: _ATW */ /* Function: 多字节转宽字节 */ /* Parameter list: */ /* pszInBuf 被转换的字符串 */ /* nInSize 字符串长度 */ /* pszOutBuf 接收转换的字符串 */ /* pnOutSize 接收字符串的长度 */ /************************************************************************/ wchar_t* _ATW(__in char* pszInBuf, __in int nInSize, __out wchar_t** pszOutBuf, __out int* pnOutSize) { if(!pszInBuf || !pszOutBuf || !pnOutSize || nInSize <= 0)return NULL; *pnOutSize = MultiByteToWideChar(NULL, NULL, pszInBuf, nInSize, *pszOutBuf, 0);// 获取待转换字符串的缓冲区所需大小 if(*pnOutSize == 0)return NULL; (*pnOutSize)++; *pszOutBuf = new wchar_t[*pnOutSize]; memset((void*)*pszOutBuf, 0, sizeof(wchar_t) * (*pnOutSize)); if(MultiByteToWideChar(NULL, NULL, pszInBuf, nInSize, *pszOutBuf, *pnOutSize) == 0) // 这里才是转换 return NULL; else return *pszOutBuf; } /************************************************************************/ /* Name: _WTA */ /* Function: 宽字节转多字节 */ /* Parameter list: */ /* pszInBuf 被转换的字符串 */ /* nInSize 字符串长度 */ /* pszOutBuf 接收转换的字符串 */ /* pnOutSize 接收字符串的长度 */ /************************************************************************/ char* _WTA(__in wchar_t* pszInBuf, __in int nInSize, __out char** pszOutBuf, __out int* pnOutSize) { if(!pszInBuf || !pszOutBuf || !pnOutSize || nInSize <= 0)return NULL; *pnOutSize = WideCharToMultiByte(NULL, NULL, pszInBuf, nInSize, *pszOutBuf, 0, NULL, NULL);// 获取待转换字符串的缓冲区所需大小 if(*pnOutSize == 0)return NULL; (*pnOutSize)++; *pszOutBuf = new char[*pnOutSize]; memset((void*)*pszOutBuf, 0, sizeof(char)* (*pnOutSize)); if (WideCharToMultiByte(NULL, NULL, pszInBuf, nInSize, *pszOutBuf, *pnOutSize, NULL, NULL) == 0) // 这里才是转换 return NULL; else return *pszOutBuf; }
C++ 11:
这里需要用到string、wstring、wstring_convert和codecvt_utf8.
string:多字节类型的数组。
wstring:宽字节类型的数组。
wstring_convert:转换类,其是一个模板类。
codecvt_utf8:编码模板类。
具体代码如下
[] { std::wstring szW{ L"Hello world." }; std::string szA; std::wstring_convert<std::codecvt_utf8<wchar_t>> cv; // 声明一个用于转换的变量cv。所有的转换都经过此变量。 szA = cv.to_bytes(szW);// 宽字节转多字节 std::wstring szW1 = cv.from_bytes(szA);// 多字节转宽字节 }();