• 关于BinaryReader读取数据:在构造函数中指定编码格式


    问题描述:使用BinaryReader从文件中读取数据,开始在创建BinaryReader实例的时候,未指定编码格式,结果能通过编译,但是能在执行过程中会报错如下:“未处理的异常:  System.ArgumentException: 输出字符缓冲区太小,无法包含解码后的字符,编码“Unicode (UTF-8)”的操作回退“System.Text.DecoderReplacementFallback”。”

    解决过程:

      首先附上创建文件的代码:

    BinaryWriter
     1 using System;
     2 using System.IO;
     3 
     4 class binaryReader
     5 {
     6     static void Main ()
     7     {
     8         FileInfo f = new FileInfo("BinFile2.dat");
     9         BinaryWriter bw = new BinaryWriter(f.OpenWrite());
    10 
    11         Console.WriteLine("Base Stream is : {0}",bw.BaseStream);
    12         
    13         double aDouble = 1234.67;
    14         int anInt = 32141;
    15         char[] aCharArray = {'A','B','C'};
    16         string aString = @"teststring";
    17 
    18         bw.Write(aDouble);
    19         bw.Write(anInt);
    20         bw.Write(aCharArray);
    21         bw.Write(aString);
    22         bw.Close();
    23 
    24     }
    25 }

      然后附上BinaryReader测试代码:

    BinaryReader
     1 using System;
     2 using System.IO;
     3 using System.Text;
     4 
     5 class binaryReader
     6 {
     7     static void Main()
     8     {                
     9         FileInfo f2 = new FileInfo("BinFile2.dat");
    10 
    11                 BinaryReader br = new BinaryReader(f2.OpenRead());
    12         //BinaryReader br = new BinaryReader(f2.OpenRead(),Encoding.Default);
    13 
    14         int temp = 0;
    15         
    16         while (br.PeekChar() != -1)
    17         
    18         {
    19             Console.Write("{0,7:x}",br.ReadByte());
    20 
    21             if (++temp == 4)
    22             {
    23                 Console.WriteLine();
    24                 temp = 0;
    25             }
    26             
    27         }
    28         Console.WriteLine();
    29     }
    30 }

      还有错误提示:

      由上,之输出第一字符的16进制编码,剩下的就开始报错。但是觉得“字符缓冲区太小”是个很诡异的错误,然后就在网上搜了下,看看别人是怎么做的。

      第一次,在CSDN上看见有人给出了解决的方案,如题目所言,在创建BinaryReader实例的时候,指定其编码方式,就像上面代码中注释掉的那一行那样,就能够解决问题,将所有字符的16进制编码正常输出。

      这样,问题首先集中到编码上。默认的编码方式有问题,必须指定,才能避免错误。那什么样的编码是可行的,什么样的编码有问题?在Encoding里面,枚举了六种编码方式:UTF7、UTF8、Unicode、BigEndianUnicode、UTF32和Default。要说的是这里的Default是指:System.Text.DBCSCodePageEncoding。接下来,我做了一个测试,枚举每一种编码方式,在上面的代码中挨个试一遍。结果发现,在我写的那个BinFile2.dat测试文件上,除了UTF-8运行失败外,其他的每种方式都是成功的(此处截图省略)。那么,就可以推断,不带编码指定的BinaryReader的构造函数默认使用的是UTF-8的编码,而这样在读取过程中试有问题的。

      现在,至少知道用该用那种编码了。

      问题再进一步,在函数块内部,在读取文件的过程中,是哪个函数调用对编码有“苛刻”的要求?在上面的函数块中,只包含两个方法的调用,一个是while语句中的PeekChar(),一个是Console.WriteLine()。我觉得后者的可能性不大,于是做了如下的测试:

    BinaryReader2
     1 using System;
     2 using System.IO;
     3 using System.Text;
     4 
     5 class binaryReader
     6 {
     7     static void Main()
     8     {                
     9         FileInfo f2 = new FileInfo("BinFile2.dat");
    10 
    11         BinaryReader br = new BinaryReader(f2.OpenRead(),Encoding.Default);
    12         int temp = 0;
    13         int count=20;
    14         while (count>0)
    15         {
    16             Console.Write("{0,7:x}",br.ReadByte());
    17 
    18             if (++temp == 4)
    19             {
    20                 Console.WriteLine();
    21                 temp = 0;
    22             }
    23             
    24                         count--;
    25         }
    26         Console.WriteLine();
    27     }
    28 }

      结果,除了没能完全输出字符之外,运行正常,于是,问题集中在了PeekChar()上面。上面用它来判断文件的边界,MSDN中描述“下一个可用的字符,或者,如果没有可用字符或者流不支持查找时为 -1。”也就是说,PeekChar()在判断是否到边界的过程中,有一个预读的过程,结合上面的编码的问题,可以猜测,在它预读的时候由于编码的不合适,导致在该方法内部的缓冲区的溢出。

      又在网上找到一文《不要使用PeekChar()判断EOF》,文中只是说不要用PeekChar来判断EOF,而是使用判断条件 ( br.BaseStream.Position < br.BaseStream.Length),但是并没有给出详细的理由。

       而后,又发现了老外也在讨论这个问题:http://bytes.com/topic/visual-basic-net/answers/349779-binaryreader-peekchar-argumentexception-conversion-buffer-overflow

      ……

      继续深入下去,有两个点要解决:1、UTF-8编码的问题;2、PeekChar的工作详细细节。

    总结:通过以上的一系列做法,对BinaryReader的使用有了一些粗浅的了解,在使用过程中,能够合理利用,避开容易出错的地方,但是,根本的问题还未能真正解决。

    ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

          更深入的明日再续。

  • 相关阅读:
    设计师必须掌握的美术基础
    UI设计初学者如何避免走弯路?
    2018年最好的医疗网站设计及配色赏析
    一名优秀的UI设计师应该具备哪些条件?
    超实用的网页页脚设计小技巧
    关于文案排版的一些基本技巧
    几个简单又实用的配色技巧
    412. Fizz Buzz
    409. Longest Palindrome
    408. Valid Word Abbreviation
  • 原文地址:https://www.cnblogs.com/YFYkuner/p/1691981.html
Copyright © 2020-2023  润新知