“.”(十六进制值 0x00)是无效的字符解决方案

自从我们的项目数据层从读取数据库改为读取接口服务后，经常会出现一些类似于的错误。我们的数据结构如下所示

1    <type><![CDATA[gp]]></type> 
2           <detail><![CDATA[刘?->->，C#为正则表达式提供了强大的支持，本课程重点讲述在C#环境下使用正则表达式，并能够学会分析创建属于自己的正则表达式，学习正则表达式请访问http://edu.51cto.com/course/course_id-4664.html]]></detail> 
3   <housepurpose><![CDATA[住宅]]></housepurpose>

接口数据

在用户输入的数据中常常有一些小人箭头之类的特殊符号（由于在www.cnblogs.com/xietong下不支持这些特殊符号，所以读者在我举例的数据结构中看不到这些特殊符号），我曾经尝试匹配这些特殊字符，然而未能找到与之相匹配的unicode代码区块，所以采用了匹配正常字符的方式来获取合法的数据用于xml解析。可以看到我们数据中的字符包括字母数字、各种标点、空白符，据此可以写出我们的正则表达式"(w|p{P}|s)*"。在RegxTest下测试发现无法匹配“<>=”这些符号，加上这些符号后正则表达式为"(w|p{P}|[<>=]|s)*"，经测试，发现可以获取到所有正常的字符，在c#中代码如下：

           string content = sb.ToString();
            MatchCollection matches = Regex.Matches(content, @"(w|p{P}|[<>=]|s)*");
            sb = new StringBuilder();
            foreach (Match m in matches)
            {
                sb.Append(m.Value);
            }
            content = sb.ToString();

　　在运行之后发现类似异常虽然少了很多，但还是有一部分异常，查看这些异常发现造成这些异常的原因正是存在16进制的字符，数据如下：

1  <shinimgs><![CDATA[http://img6n.soufunimg.com/viewimage/agents/2015_08/24/M09/01/12/wKgEUFXaYrSILIxEAAClop_zcLMAABrYAEF2hoAAKW6316/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_08/24/M01/0C/FA/wKgEKlXaYrWIOQbmAACrV5PpfxIAAURwACqFtkAAKtv885/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_08/24/M04/0C/FA/wKgELFXaYrSIVo9xAAB3vv5fpe8AAURuwMY6CsAAHfW851/120x120.jpg;http://img6n.soufunimg.com/viewimage/agents/2015_08/24/M00/01/12/wKgEUFXaYrSIQR6mAABxJ5OYy6AAABrWQPffz0AAHE_808/120x120.jpg]]></shinimgs> 
2           <xqimgs><![CDATA[http://img7.soufunimg.com/viewimage/agents/2015_05/11/M08/08/BD/wKgELFVQEdqIFbqUAADuyIgGO48AANp_AOJcvcAAO7g917/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_08/24/M01/0C/FA/wKgEK1XaYrWIaxkaAACwvmucOS8AAURwACqwkgAALDW084/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_07/04/M08/0A/E5/wKgEKlWXSA2IXitfAACu3NyaN_wAARBpgNFzlcAAK70576/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_05/11/M08/08/BD/wKgELFVQEd-IJevUAACSMy8yODUAANp_AOZCjMAAJJL453/120x120.jpg;http://img7.soufunimg.com/viewimage/agents/2015_05/11/M09/08/BD/wKgELFVQEd-ISF5YAADAL5IP7McAANqDAHBU9cAAMBH365/120x120.jpg]]></xqimgs>

View Code

如果直接将0x式样的16进制去掉，那么这些图片就无法找到正确地址，似乎有些粗鲁。为此，我决定将相应的变量先取出来，然后在读取出来的DataSet中重新对相应字段赋值。我的代码如下：

 1    MatchCollection imatches = null;
 2             if (Regex.IsMatch(content, "0x[0-9a-fA-F]+", RegexOptions.IgnoreCase))
 3             {
 4                 Regex regex = new Regex(@"<(?'tag'w+?)><![CDATA[(?'text'.*?0[Xx].*?)]]></k'tag'>");
 5                 imatches = regex.Matches(content);
 6                 if (imatches != null)
 7                 {
 8                     content = regex.Replace(content, "<${tag}></${tag}>");
 9                 }
10             }
11 
12             System.Xml.XmlDocument xd = new System.Xml.XmlDocument();
13             xd.LoadXml(content);
14             System.Xml.XmlNodeReader xnr = new System.Xml.XmlNodeReader(xd);
15             ds.ReadXml(xnr);
16             xnr.Close();
17             if (imatches != null && imatches.Count > 0 && ds != null && ds.Tables.Count > 0)
18             {
19                 foreach (Match m in imatches)
20                 {
21                     foreach (DataTable table in ds.Tables)
22                     {
23                         if (table.Columns.Contains(m.Groups["tag"].Value))
24                         {
25                             table.Rows[0][m.Groups["tag"].Value] = m.Groups["text"].Value;
26                             break;
27                         }
28                     }
29                 }
30             }

在上面的代码中用到了正则的文本替换及分租，如果有不理解的地方可以在http://edu.51cto.com/course/course_id-4664.html中学习一下基本的C#正则表达式知识。

上面的代码经测试可以正常运行，但放到那里呢，虽然在try-catch抛出异常，在异常中处理的话要耗费几百个时钟周期，但鉴于问题数据只是一小部分，并且上面的正则表达式的效率并不太高，所以我将上面的代码放在了catch语句块中。

相关阅读:
BZOJ.1016.[JSOI2008]最小生成树计数(Matrix Tree定理 Kruskal)
BZOJ.4031.[HEOI2015]小Z的房间(Matrix Tree定理辗转相除)
BZOJ.1014.[JSOI2008]火星人(Splay 二分 Hash)
BZOJ.4903.[CTSC2017]吉夫特(Lucas DP)
BZOJ.1011.[HNOI2008]遥远的行星(思路枚举)
BZOJ.1013.[JSOI2008]球形空间产生器(高斯消元)
BZOJ.1007.[HNOI2008]水平可见直线(凸壳单调栈)
BZOJ.1003.[ZJOI2006]物流运输(DP 最短路Dijkstra)
BZOJ.1001.[BeiJing2006]狼抓兔子(最小割ISAP)
BZOJ.1085.[SCOI2005]骑士精神(迭代加深搜索)
原文地址：https://www.cnblogs.com/xietong/p/5138551.html