• Text文档编码识别方法


    Text文档编码识别方法

      在做文档读取的时候,时常碰到编码格式不正确的问题,而要怎么样正确识别文档的编码格式,成了很多程序员的一块心病,今天我就要试着治好这块心病,这段代码的浓缩来自上千万文档的数据分析所得,可靠率极其高。

      应朋友要求,需要帮他做一个文章操作工具,既然想操作,就有文件的读取和修改,本来花费几个小时信心满满把程序交给朋友的时候,朋友突然来了句,很多文章打开出现乱码的情况,我哩个去,像是晴天霹雳深深的击在我的心窝里,我突然想到了文件编码问题,而这个问题,我曾经无数次的尝试,最终都以失败而告终,每次尝试,只不过是减少了错误概率的出现,但是还不足以弥补文件编码格式分析完全的正确,而这次,朋友又提出来编码问题,我瞬间凌乱了。

      如果不把这个问题解决,给朋友做的工具等于没有任何作用,我TM前两天还吃人家一顿大餐,难道还能吐出来吗?这个搞不定,面子就丢大了,无奈之下,我询问了朋友那里有多少文件?得到答复:好几千万。瞬间我眼光放亮了,那就海量数据分析吧。

      海量数据分析的时候,我使用的是一个笨方法,就是把所有文件头数据读取出来,比如读取4个byte,然后将读取的文件内容的前一百个字以(Unicode,UnicodeBigEndian,UTF8,ANSI等等)读取出来,肉眼识别吧,比如

      public class Info{

        public int ch0;//第一个字符

        public int ch1;//第二个字符

        public int ch2;//第三个字符

        public int ch3;//第四个字符

        public string UnicodeStr;//前100个字

        public string UnicodeBigEndianStr;//前100个字

        public string UTF8Str;//前100个字

        public string ANSIStr;//前100个字

      }

    然后使用lambda做排序,个人建议对UnicodeStr,UnicodeBigEndianStr,UTF8Str,ANSIStr这些做排序,因为可识别的字符编码有一定的区间范围,做排序后,可识别汉字的一定都堆在一起;

    再有就是可以对 ch0,ch1,ch2,ch3,做详细分类,看看它们之间都有什么样的关系,通过观察,我也是能发现什么的;通过归纳和总结,就得出了TEXT编码的可识别方法,如下: 

    using System;
    using System.Collections.Generic;
    using System.Linq;
    using System.Text;
    using System.IO;
    
    namespace 文章操作工具
    {
        public class TextHelper
        {
            public static System.Text.Encoding GetType(string filename)
            {
                FileStream fs = new FileStream(filename, FileMode.Open, FileAccess.Read);
                System.Text.Encoding r = GetType(fs);
                fs.Close();
                return r;
            }
            
            public static System.Text.Encoding GetType(FileStream fs)
            {
                /*
                                    Unicode    
                                    ------------------
                                    255    254
    
                                    ======================
                                    UnicodeBigEndian
                                    -------------------
                                    254    255
    
                                    ======================
                                    UTF8
                                    -------------------
                                    34 228
                                    34 229
                                    34 230
                                    34 231
                                    34 232
                                    34 233
                                    239    187
                 
                                    ======================
                                    ANSI
                                    -------------------
                                    34 176
                                    34 177
                                    34 179
                                    34 180
                                    34 182
                                    34 185
                                    34 191
                                    34 194
                                    34 196
                                    34 198
                                    34 201
                                    34 202
                                    34 205
                                    34 206
                                    34 208
                                    34 209
                                    34 210
                                    34 211
                                    34 213
                                    196 167
                                    202 213
                                    206 228
                */
                BinaryReader r = new BinaryReader(fs, System.Text.Encoding.Default);
                byte[] ss = r.ReadBytes(3);
                int lef = ss[0];
                int mid = ss[1];
                int rig = ss[2];
                r.Close();
                /*  文件头两个字节是255 254,为Unicode编码;
                    文件头三个字节  254 255 0,为UTF-16BE编码;
                    文件头三个字节  239 187 191,为UTF-8编码;*/
                if (lef == 255 && mid == 254)
                {
                    return Encoding.Unicode;
                }
                else if (lef == 254 && mid == 255 && rig == 0)
                {
                    return Encoding.BigEndianUnicode;
                }
                else if (lef == 254 && mid == 255)
                {
                    return Encoding.BigEndianUnicode;
                }
                else if (lef == 239 && mid == 187 && rig == 191)
                {
                    return Encoding.UTF8;
                }
                else if (lef == 239 && mid == 187)
                {
                    return Encoding.UTF8;
                }
                else if (lef == 196 && mid == 167
                    || lef == 206 && mid == 228
                    || lef == 202 && mid == 213)
                {
                    return Encoding.Default;
                }
                else
                {
                    if (lef == 34)
                    {
                        if (mid < 220) return Encoding.Default;
                        else return Encoding.UTF8;
                    }
                    else
                    {
                        if (lef < 220) return Encoding.Default;
                        else return Encoding.UTF8;
                    }
                }
            }
        }
    }
  • 相关阅读:
    java处理特殊时间格式,2019-11-28T06:52:09.724+0000 转为常见格式2019-11-28 06:52:09,同时转为数据库日期格式Timestamp
    最近比较忙,处理项目上各种问题。此时有新任务来临,赶时间记录一个方法,加深对数组的理解
    springboot项目通过gradle运用capsule插件打可执行jar包
    HanLP 关键词提取。总结
    mmdet阅读笔记
    mmcv阅读笔记
    Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data
    3D Hand Shape and Pose from Images in the Wild
    End to end recovery of human shape and pose
    工作小结五
  • 原文地址:https://www.cnblogs.com/preacher/p/6084802.html
Copyright © 2020-2023  润新知