• [转]UTF-8编码的空格(194 160)问题


      前台的字符串传递到后台进行处理,发现了一个较诡异的问题:字符串中的一个空格(ASCII:32)被UTF-8编码之后变成了一个诡异的字符(ASCII:194 和 160的组合)!但在后台其表象还是空格。

      在UTF-8编码里面存在一个特殊的字符,其编码是“0xC2 0xA0”,转换成字符的时候表现为一个半角空格,跟一般的半角空格(ASCII 0x20)不同的是它的宽度不会被压缩,所以排版中常能用到它。但是GB2312、Unicode之类并没有这样的字符,所以转换后前台会显示为“?”号,只是显示为问号而不是真正的问号,所以无法被替换!

      对这两个看似相同的字符串进行一下转换可以确认:原始的字符串为:”#'  %$ ()_ -{}.b“  被转义后的字符串为:”#'  %$ ()_ -{}.b“ 【注:双引号不算,转换为byte数组之后可以看到,原来的是16个字节,后来的那个是17个字节:这就是 32 --> 194  160 的结果】

                string tmp1 = "#'  %$ ()_ -{}.b";
    string tmp2 = "#'  %$ ()_ -{}.b";
    byte[] o1 = Encoding.UTF8.GetBytes(tmp1);
    byte[] o2 = Encoding.UTF8.GetBytes(tmp2);

      知道了这个原因之后,就好办了,写代码可以把194 和 160 的组合转换回去。程序(C#)如下所示:

            private string ChangeUTF8Space(string targetStr)
    {
    try

    {
    string currentStr = string.Empty;
    byte[] utf8Space = new byte[] { 0xc2, 0xa0 };
    string tempSpace = Encoding.GetEncoding("UTF-8").GetString(utf8Space);
    currentStr
    = targetStr.Replace(tempSpace, " ");
    return currentStr;
    }
    catch (Exception ex)
    {
    return targetStr;
    }
    }

      更多的编码格式对照表可以看这篇文章:http://www.utf8-chartable.de/unicode-utf8-table.pl?utf8=dec 

      


    ---------------------
    作者:Eric Sun
    来源:CNBLOGS
    原文:https://www.cnblogs.com/mingmingruyuedlut/archive/2012/07/04/2575180.html
    版权声明:本文为作者原创文章,转载请附上博文链接!
    内容解析By:CSDN,CNBLOG博客文章一键转载插件

  • 相关阅读:
    深入V8引擎-Time核心方法之win篇(2)
    深入V8引擎-Time核心方法之win篇(1)
    深入V8引擎-Time核心方法之mac篇
    深入V8引擎-Time模块介绍
    深入V8引擎-写在前面
    深入V8引擎-编译启动
    【机器学习】极大似然估计法
    【机器学习】贝叶斯决策论
    【机器学习】贝叶斯决策 实例
    【机器学习】贝叶斯公式
  • 原文地址:https://www.cnblogs.com/admans/p/13467708.html
Copyright © 2020-2023  润新知