• 关于C#开发中那些编码问题


    最近一直在搞各种编码问题,略有心得,与大家分享一番。

    System.Text提供了Encoding的抽象类,这个类提供字符串编码的方法。常用的编码方式主要有ASCII,Unicode,UTF8(Unicode编码的一种)。

    Unicode有四种编码格式,UTF-8, UTF-16,UTF-32,UTF-7。

    字符编码类,ASCIIEncoding ,UTF7Encoding,UnicodeEncoding,UTF32Encoding。

    下面对ASCII和Unicode编码进行对比,废话不说,先上代码:

    这是ASCII编码、解码。

     1         static void Main(string[] args)
     2         {
     3             string temp = "Hello World!";
     4             Console.WriteLine("Original String:{0}", temp);
     5             
     6             byte[] tempBytes = System.Text.Encoding.ASCII.GetBytes(temp);
     7             Console.WriteLine("Bytes Array:{0}", BitConverter.ToString(tempBytes));
     8 
     9             BigInteger integer = new BigInteger(tempBytes);
    10             Console.WriteLine("BigInteger:{0}", integer);
    11 
    12             string res = System.Text.Encoding.ASCII.GetString(tempBytes);
    13             Console.WriteLine("Convert Back String:{0}", res);
    14             Console.ReadKey();
    15         }
    View Code

    运行结果如下:

    Original String:Hello World!
    Bytes Array:48-65-6C-6C-6F-20-57-6F-72-6C-64-21
    BigInteger:10334410032597741434076685640
    Convert Back String:Hello World!
    

     很正常,对吧?但是,如果输入的字符串是中文(或者其他非ASCII表中的字符),情况会怎么样呢?

    改变上面的程序代码

    string temp = "你好,世界!";

    运行结果如下:

    Original String:你好,世界!
    Bytes Array:3F-3F-3F-3F-3F-3F
    BigInteger:69540876599103
    Convert Back String:??????
    

     如果把编码格式换成UTF8,依然重复上面的测试过程。

     1         static void Main(string[] args)
     2         {
     3             string temp = "你好,世界!";
     4             Console.WriteLine("Original String:{0}", temp);
     5             
     6             byte[] tempBytes = System.Text.Encoding.UTF8.GetBytes(temp);
     7             Console.WriteLine("Bytes Array:{0}", BitConverter.ToString(tempBytes));
     8 
     9             BigInteger integer = new BigInteger(tempBytes);
    10             Console.WriteLine("BigInteger:{0}", integer);
    11 
    12             string res = System.Text.Encoding.UTF8.GetString(tempBytes);
    13             Console.WriteLine("Convert Back String:{0}", res);
    14             Console.ReadKey();
    15         }
    View Code

    运行结果如下:

    Original String:你好,世界!
    Bytes Array:E4-BD-A0-E5-A5-BD-EF-BC-8C-E4-B8-96-E7-95-8C-EF-BC-81
    BigInteger:-10998968812899434720462615123889939386679836
    Convert Back String:你好,世界!
    
    Original String:Hello World!
    Bytes Array:48-65-6C-6C-6F-20-57-6F-72-6C-64-21
    BigInteger:10334410032597741434076685640
    Convert Back String:Hello World!
    

     通过对比,我们发现除了兼容中文和其他语言外,似乎没有太大区别。如果把编码集换成Unicode,中英文字符编码的不同就会很容易看出来了。

    Original String:Hello World!
    Bytes Array:48-00-65-00-6C-00-6C-00-6F-00-20-00-57-00-6F-00-72-00-6C-00-64-00-21-00
    BigInteger:3160918205608148134863399242437668999277801104545742920
    Convert Back String:Hello World!
    
    Original String:你好,世界!
    Bytes Array:60-4F-7D-59-0C-FF-16-4E-4C-75-01-FF
    BigInteger:-307722159543719876182061216
    Convert Back String:你好,世界!
    

    如果不考虑其他情况。通过对比结果,我们发现:

    1、ASCII只能处理英文和英文符号,具体请参考ASCII字符表

    2、Unicode可以处理全球所有语言符号

    3、Unicode处理英文时,会在每个字节后面加一个字节0x00,比ASCII多出一倍的长度;处理中文时,编码较短。

    4、UTF8处理中文时比Unicode编码长,处理英文时与ASCII一样。

    结论,由于现在存储介质越来越不值钱,在处理有非英文字符时,编码格式应该选择Unicode(或其子集UTF8等的任意一种编码格式),只有在确定程序只会处理英文的时候,才能选择ASCII编码。

  • 相关阅读:
    图解C/C++多级指针与多维数组
    排序---选择排序
    排序---插入排序
    排序---希尔排序
    Merge Two Sorted Lists
    Remove Nth Node From End of List
    如何阅读Django文档?
    机器学习 第一章 绪论 笔记
    python工程实践·笔记
    Python后端开发面经
  • 原文地址:https://www.cnblogs.com/yilong-blog/p/aboutencoding.html
Copyright © 2020-2023  润新知