• 全角与半角的转化


    1.全角与半角的区别

    汉字的特点使我们碰到了两个基本且又非常重要的概念,即全角与半角。形象的说,在使用英文输入法时,电脑屏幕上,一个英文字符(如a)所占的位置,人们称其为半角,而一个汉字所占的位置则等于两个英文字符,故称其为全角。
    英文输入法下,无论是输入字母、符号还是数字,始终都只占一个英文字符的位置,即半角。但在中文输入法下,则会有全角半角两种选择,对中文字符来说,这两种选择对其没有影响,它始终都要占两个英文字符的位置,但对此状态下输入的符号、数字以及英文字母来说,就显得很重要,如以下所示:
    china
    china
    前者输入选择的是半角,后者为全角。在选择全角后,即便是字母、符号、数字都无一例外地要被当成汉字进行处理,视觉上看,由于它们占两个英文字符的位置,显得别扭了许多。

    2.全角与半角的转化

    Ansi多字节字体集在中文(汉字、中文符号)下即GBK编码,英文(英文字母、英文符号)下为ASCII码,一般来说,Ansi编码的文本便于程序的处理。对文本中字符串操作前,建议统一使用全角或半角。比如全角的空格“  ”(对应的GBK编码A1A1),而半角的空格 ”(对应的ASCII编码为\x20),如果文本中混合使用,要查找空格位置或按空格分割段落时,显然两种空格会带来不必要的麻烦。文本中的内容可分为以下四类:

    分类 解释 转化方法
    汉字以及中文字符 如:“中国”、“好”等汉字和“……”“——”等中文中的特有符号,这些只能是全角,不存在转化的问题 NULL
    英文字母与英文符号 指ASCII表中33-126对应的字符,如:!*+012abc{}等。它们有全角和半角两种形式,例如上述的china与china 半角转全角:前添加字节A3,原字节最高位置1
    全角转半角:丢弃第一个字节,第二个字节最高位置0
    空格 ASCII码的空格为\x20,GBK编码的空格为A1A1 和英文字母和英文符号不同,这个要特殊对待
    控制字符 指ASCII表中0-31的字符,用于控制文件格式。如回车换行便对应\x0D\x0A(CR LF),这部分只能是半角,不需转化 NULL

    由此,全角转半角的程序如下

    /*
     *作者:侯凯
     *说明:全角与半角相互转化
     *日期:2013-6-9
     */
    #include <iostream>
    #include <fstream>
    #include <string>
    using std::string;
    using namespace std;
    
    const char sbc_high = -93; //全角字符的第一个字节为A3
    const char sbc_space = -95; //全角空格为A1A1
    
    //全角转半角
    string SBC2DBC(const string &sbc)
    {
        string dbc = "";
        int len = sbc.length();
        for (int i=0; i<len; ++i)
        {
            if (sbc[i] > 0)    //已经是单字节字符,或者是控制字符
            {
                dbc.append(1, sbc[i]);
            }
            else
            {
                if (sbc[i] == sbc_high)    //全角的英文字母或全角英文符号,如!(A3A1)
                {
                    dbc.append(1, sbc[i+1]&0x7f);
                }
                else if (sbc[i]==sbc_space && sbc[i+1]==sbc_space)    //单独处理空格
                {
                    dbc.append(1, ' ');
                }
                else //针对汉字以及~……等中文符号
                {
                    dbc += sbc.substr(i, 2);
                }
                ++i;
            }
        }
        return dbc;
    }

    半角转全角的程序如下

    //半角转全角
    string DBC2SBC(const string &dbc)
    
    {
        string sbc = "";
        int len = dbc.length();
        for (int i=0; i<len; ++i)
        {
            if (dbc[i] < 0)    //已经是双字节字符,或者是汉字及中文符号
            {
                sbc += dbc.substr(i, 2);
                ++i;
            }
            else if (dbc[i] == ' ')    //单独处理空格
            {
                sbc += " ";
            }
            else
            {
                if (dbc[i]>=33 && dbc[i]<=126)//半角的英文字母或半角英文符号
                {
                    sbc.append(1, sbc_high);
                    sbc.append(1, dbc[i]|0x80);
                }
                else
                {
                    sbc.append(1, dbc[i]);//控制字符
                }
            }
        }
        return sbc;
    }

    处理一个文本转化的示例程序如下

    //处理txt文本的简单例子
    void ProcessFile(const char* filename)  
    {  
        ifstream infile;
        string strLine = "";
        string strResult = "";  
        infile.open(filename);
        if (infile)  
        {  
            while (!infile.eof())
            {  
                getline(infile,strLine);  
                strResult += strLine+"\n";
            }  
        }
        infile.close();
    
        strResult = SBC2DBC (strResult);//转化
    
        ofstream outfile;  
        outfile.open (filename);
        outfile.write (strResult.c_str(), strResult.length());  
        outfile.flush();  
        outfile.close();
    }

    3.unicode编码下的转化

    在实际的工作中,可能碰到unicode编码的文本。在这种情况下,半角与全角的转化过程与上述方法一致,只需要处理“英文字母与英文符号”和“空格”即可。当然,unicode编码下,所有字符都用两个字节表示,如半角的空格为\x0020,全角的空格为\x3000,(unicode编码详见:http://www.cnblogs.com/houkai/archive/2013/06/04/3116955.html),这样避免了字符的添加或丢弃,处理更为简单。如需Unicode编码表,可下载。 转化方法:
    a.全角空格为12288,半角空格为32
    b.其他字符半角(33-126)与全角(65281-65374)的对应关系是:均相差65248
    程序实现比较简单,以UTF8转ANSI中的changeTxtEncoding函数为基础,改写后示例如下:

    //原函数的功能是实现UTF8编码的szU8字符转unicode,unicode再转Ansi
    //这里,在UTF8转unicode后添加了“全角转半角程序”部分
    char* changeTxtEncoding(char* szU8)
    {  
        int wcsLen = ::MultiByteToWideChar(CP_UTF8, NULL, szU8, -1, NULL, 0);  
        wchar_t* wszString = new wchar_t[wcsLen];
        ::MultiByteToWideChar(CP_UTF8, NULL, szU8, -1, wszString, wcsLen);
    
        //全角转半角程序
        //wszString是unicode编码
        for (int i=0; i<wcsLen; i++)
        {
            if(wszString[i]==12288) //空格
            {
                wszString[i] = 32;
            }
            if( (wszString[i]>=65281) && (wszString[i]<=65374) )//其他字符
            {
                wszString[i] -= 65248;
            }
        }
    
        int ansiLen = ::WideCharToMultiByte(CP_ACP, NULL, wszString, -1, NULL, 0, NULL, NULL);  //wcslen(wszString)
        char* szAnsi = new char[ansiLen];  
        ::WideCharToMultiByte(CP_ACP, NULL, wszString, -1, szAnsi, ansiLen, NULL, NULL); 
        delete[] wszString;
        return szAnsi;  
    }
  • 相关阅读:
    AOP之PostSharp3MethodInterceptionAspect
    AOP之PostSharp6EventInterceptionAspect(事件异步调用)
    C# Winform获取路径
    C#生成唯一的字符串或者数字
    【电信增值业务学习笔记】1 初步学习
    【读书笔记】《产品经理手册》
    【协议学习】PPPoE学习文档
    【电信增值业务学习笔记】2 移动网络基本概念和组网结构
    【电信增值业务学习笔记】3 语音类增值业务
    【通信基础知识】白噪声、相关解调和相干解调
  • 原文地址:https://www.cnblogs.com/houkai/p/3129506.html
Copyright © 2020-2023  润新知