• unicode与ansi下字符详解


    最近在学习时老是碰到CString的字符串要转换为char*的问题,在此总结一下unicode工程下的字符串处理问题。



    ①、Ansi与Unicode简要说明及各自的优缺点:
    他们是两种字符的编码格式,Ansi=窄字节,Unicode=宽字节,Ansi用char格式表示一个字符,占用一个字节的存储空间,最多表示255个字符,表示英文还可以,但对于中文、日文、韩文等语言来说就不够用了,所以如果你的程序是Ansi编码的话,那么你写的中文语言的程序拿到日文、韩文等系统上面就会出现乱码。所以有了Unicode,用二个字节去表示一个字符,格式是 unsigned short,被定义成 wchar_t 格式这样就可以表示世界上绝大多数的语言了!但有利就有弊,缺点呢?就是空间占用翻倍了,网络传输的数据量也增大了(double)


    网摘:Windows 2000 及其以后的 Xp、2003、Vista、Win7 等系统都是使用Unicode从头进行开发的,如果调用任何一个Windows API 函数并给它传递一个 ANSI 字符串,那么系统首先要将字符串转换成Unicode,然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串,系统就会先将Unicode字符串转换成ANSI字符串,然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。为了避免系统转换消耗的资源通常都使用unicode。


    ②、不同编码格式下的字符串处理及相互转化:


    ◆ 大家在编程时经常遇到的数据类型:(以下对应的都是一样的)
    ● Ansi:
    char、char * 、const char *  
    CHAR、(PCHAR、PSTR、LPSTR)、LPCSTR


    ● Unicode:
    wchar_t、wchar_t * 、const wchar_t *
    WCHAR、(PWCHAR、PWSTR、LPWSTR)、LPCWSTR


    ● T 通用类型:
    TCHAR、(TCHAR * 、PTCHAR、PTSTR、LPTSTR)、LPCTSTR


    以上,其中:P代表指针的意思,STR代表字符串的意思,L是长指针的意思,在WIN32平台下可以忽略,C代表const常量的意思,W代表wide宽字节的意思,T表示模板,也就是通用的意思,在使用时系统会根据当前的工程性质进行转换。例如在unicode下,TCHAR其实就是wchar_t,否则就被定义成char。


    ◆ 字符串类型的对象的定义:
    ● Ansi:char *pAnsiStr = "hello";
    ● Unicode:wchar_t *pUnicodeStr = "hello";
    ● 通用类型:TCHAR *pTStr = _T("hello"); 或者 TCHAR *pTStr = _TEXT("hello");(_T,_TEXT是一个意思)
    ● 动态申请内存:TCHAR *pszBuf = new TCHAR[100];




    ◆ 常用的字符串处理函数,具体信息见MSDN:
    字符串长度:
    ● Ansi:strlen(char *str);
    ● Unicode:wcslen(wchar_t *str);
    ● 通用函数:_tcslen(TCHAR *str);


    ● Ansi:int atoi(const char *str);
    ● Unicode:int _wtoi(const wchar_t *str);
    ● 通用函数:_tstoi(const TCHAR *str);


    字符串拷贝:
    ● Ansi:strcpy(char *strDestination, const char *strSource);
    ● Unicode:wcscpy(wchar_t *strDestination, const wchar_t *strSource);
    ● 通用函数:_tcscpy(TCHAR *strDestination, const TCHAR *strSource);


    以上函数不安全,在vs2003等以上版本的编译器中会有warnning警告提示,以下为安全函数(vc++6.0不支持):
    ● Ansi:strcpy_s(char *strDestination, size_t numberOfElements, const char *strSource);
    ● Unicode:wcscpy_s(wchar_t *strDestination, size_t numberOfElements, const wchar_t *strSource);
    ● 通用函数:_tcscpy_s(TCHAR *strDestination, size_t numberOfElements, const TCHAR *strSource);


    numberOfElements
    Size of the destination string buffer. 目的缓冲区的大小,以字节为单位,不是字符!
    size_t unsigned integer,在MSDN中的解释:Result of sizeof operator,也就是说 size_t 是 unsigned integer 即无符号整数。那为什么会有size_t这个类型呢
    因为不同平台的操作系统(32/64)中 int/long 等类型所占的字节并不一样,而 size_t 在不同的平台下有不同的定义。有点类似于TCHAR类型:
    #ifndef   _SIZE_T_DEFINED
      #ifdef     _WIN64
      typedef   unsigned   __int64         size_t;   //8个字节,64位
      #else
      typedef   _W64   unsigned   int       size_t;   //4个字节,32位
      #endif
      #define   _SIZE_T_DEFINED
    #endif


    ◆ Ansi 与 Unicode 字符串类型的互相转换:
    上面给大家介绍的都是窄字节就是窄字节,宽字节就是宽字节,那么下面就给大家介绍下他们两个之间的转换。
    在程序中还是不建议大家来回来去的进行字符串编码的转换,要么就都使用Ansi,要么就都使用Unicode,
    但是呢,往往有些 API 函数只提供了窄字节版本(比如:GetProcAddress,见MSDN)或者只提供宽字节版本(比如:CommandLineToArgvW,见MSDN),
    这个时候就要进行字符串编码格式的转换了。


    但是,这里提醒下大家,不是所有的都需要转换,有一些是不需要转换的,比如 socket 中的 send 或者 recv 函数.
    =================================================
    ◆ 字符串占用字节数:
    ● Ansi:
    char szStr[] = "abc";
    占用字节数求法:sizeof(szStr);


    char *psz = "defgh";
    占用字节数求法:strlen(psz)*sizeof(char);


    ● Unicode:
    wchar_t szwStr[] = L"abc";
    占用字节数求法:sizeof(szwStr);


    wchar_t *pwsz = L"defgh";
    占用字节数求法:wcslen(pwsz)*sizeof(wchar_t);


    ● 通用函数:
    TCHAR szStr[] = _T("abc");
    占用字节数求法:sizeof(szStr);


    TCHAR *psz = _T("defgh");
    占用字节数求法:_tcslen(psz)*sizeof(TCHAR);
    =======================================================


    ● 转换用到的最根本的 API 函数:
    WideCharToMultiByte 实现宽字节转换到窄字节
    MultiByteToWideChar 实现窄字节转换到宽字节


    ● A2W、W2A、T2A、T2W 宏的使用以及注意事项:
    其实这些宏根本上还是用到了上面的两个函数。
    [1]、这些函数都是在栈中分配空间的。例如:A2W("abc"),就会在栈中分配一块内存存放'abc'
    [2]使用上面的宏之前都要使用USES_CONVERSION宏



    *unicode下CString与char*的转换:
    CString转换为char*:使用wcstombs()函数
    例子:
        CString str;
        str="你好,hello";
        char ch[50];
        wcstombs(ch,str,siezof(ch));
    这样的转换会出现问题,原因是str带有中文,如果带有中文还在之前使用setlocale(LC_ALL,""),要包含头文件<locale.h>;设置一下默认语言。


    char*转换为CString:使用A2T()函数:
    例子:
    USES_CONVERSION;
    char ch[5]="what";
    CString str;
    str=A2T(ch);

    更多常用的呼唤方法大家可以baidu一下便知

  • 相关阅读:
    opencv ImportError: libSM.so.6: cannot open shared object file: No such file or directory
    UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcd
    Linux卸载并更新显卡驱动
    人脸识别
    dav转mp4
    python调用c++接口,参数为opencv读取数据
    Linux下内存泄漏工具valgrind
    模型轻量化
    自动驾驶车搭建
    TSN(Temporal Segment Networks)
  • 原文地址:https://www.cnblogs.com/javawebsoa/p/3002605.html
Copyright © 2020-2023  润新知