原文:http://blog.sina.com.cn/s/blog_48f93b530100e9tr.html
微软提供了大量的XML开发工具和技术,而SMXML(Microsoft XML Core Services)应该是一般开发中最常用到的技术了。MSXML支持了包括DOM(Document Object Model)、SAX(Simple API for XML)、XMLHttpRequest、XPath、SOM(Schema Object Model)等多种API接口和XML操作工具。本篇先主要介绍应用MSXML所涉及到的概念及说明,下一篇将总结一下应用MSXML DOM SDK进行XML文档处理。
一、MSXML版本说明
目前共有四种MSXML版本,分别为MSXML3、MSXML4、MSXML5和MSXML6。由于在微软的Windows系统中,MSXML主要是用来支持浏览器和Office的,因此这些版本多与不同浏览器版本及Office版本相关。微软推出IE6时带的是MSXML3,因此一般在XP系统上是支持MSXML3的,MSXML3也成为应用最广泛的一个版本。MSXML5主要用来支持Microsoft Office;而MSXML4很快就被更新版本的MSXML6替代了,微软推荐首选应用最新的MSXML6,其次应用MSXML3。
二、XML(Xtensible Markup Language)简介
要学习MSXML首先要了解XML。XML是一种被设计用于网络环境或跨平台环境数据存储和交换的标记性语言,达到数据存储分析一致性的目的。XML的结构形式和大家熟悉的HTML类似,但两者的用途没有关联,最大的区别在于XML用来存储数据,并允许使用者定义自己的元素。XML内容灵活的可扩展性以及简单易用的结构设计,使它发展非常迅速,目前已是各种应用环境下的程序之间进行数据传输和交换的最流行技术,另外在信息存储和描述领域,XML也逐渐成为应用标准。
关于XML的术语大家可以去专门的学习网站了解,这里只简单的说明一下XML的文档结构。先看一个xml文档示例。
<?xml version='1.0' encoding='GB2312'?>
<!-- This is a XML example -->
<root>
<item type="text">文本</item>
<item type="cdata">
<![CDATA[在CDATA中的文本为独立字符串,不被解析,可以包含一些特殊字符]]>
</item>
<item type="sub">
<subitem>子节点</subitem>
</item>
</root>
第1行为XML声明,定义XML使用的版本和编码。如果XML中的编码方式不是UTF-8或UTF-16,则必须声明编码方式,否则有可能解析失败。关于XML编码的问题下面会详细介绍。
第2行是注释,形式跟HTML是一样的。
第3行的root为根元素(文档元素),其他所有元素都包含在该元素的开始和结束标签之间。XML文件必须要有一个根元素,其他元素都出现在根元素内部。
第4行到第10行为根元素的子节点元素,这些元素是可以重名的。一个元素可以拥有属性、文本和子元素。如第4行的item元素拥有“type”属性,item标签之间的“文本”就是该元素的文本,第8行的item则拥有子元素“subitem”。
第6行的<![CDATA[ ]]>段是一个特殊的语法,被称为CData段。表示其中的字符无需解析,例如一些类似'<'、'/'、'>'的特殊字符,这样可以防止XML的结构被破坏。
另外需要注意的一些事项:
1、XML的标签是大小写敏感的;
2、一些转义字符在表达非转义的情形下,应使用实体引用,如将'<'变为'<',将'>'变为'>',将'&'变为'&',将'''变为'&apos',将'"'变为'"';
3、XML中应尽量少使用属性,而多使用子元素。
三、XML中的编码
计算机上的字符集问题是一个让所有开发者头疼的问题,由于历史原因以及具体应用的不同需求,产生了很多种字符编码集,常见的大概可以分为两种:单字节编码和多字节编码,前者代表为ASCII,后者代表为Unicode。但是除了这两者之外,还有很多字符集,而且单Unicode就提供了3种编码方法:UTF-8,UTF-16和UTF-32。关于字符集的具体知识,大家可以自己去查阅一些资料。
XML对字符编码的规定是:如果XML指定编码格式,则按照指定格式进行处理,当然此时必须保证文档存储的字符编码格式与指定的统一,或者解析器能够处理这种编码格式,如果出现错误,解析器会给出提示信息。当XML没有指定编码格式时,采用默认编码格式UTF-8,如果此时文档编码格式不是UTF-8,那么解析就会出错。
四、DOM(Document Object Model)
DOM是MSXML的一种对XML文档进行处理的标准模型,将XML文档全部加载到内存中形成一个树结构,在此基础上将XML当作一个对象进行操作。DOM提供了一系列的API并为XML结构中的各种类型元素定义了对应的对象接口。利用这些接口,可以对XML文档进行创建、遍历,对文档内容进行添加、删除、修改等动态操作。
关于DOM的应用将在下一篇中详细说明。
五、SAX(Simple API for XML)
看名字可以知道SAX是对XML操作的一个API集合,为什么这个集合"Simple"呢?其实是相对于DOM来说的。
上面已经介绍,DOM模型每次都会将整个XML文档装载到内存当中维护一个树结构,可想而知,当XML文档比较复杂或者体积比较大的时候,维护起来肯定会影响到效率。因此,当开发者比较重视效率时,应用SAX可能是一个好的选择。
SAX最大的特点就是事件驱动。装载XML文件时,SAX遍历文档并产生诸如开始和结束解析元素之类的事件,通知外部应用进行处理。所有的处理都在一次遍历中完成,因此SAX处理XML文档效率很高。另外针对大型的文档,SAX可以每次只将一部分装入内存,这样无论在空间效率和时间效率上都能得到有效提高。
当然SAX的应用范围是会受到一些限制,而且外部的处理也非常琐碎,总之与DOM应该是很好的互补。
六、XPath
Xpath是一种能够在XML文档中寻找信息的语言,它通过XML文档中的元素和属性来进行导航,形式非常类似我们平时用的路径表达式。
XPath内置了很多函数可以帮助实现导航功能,通过指定路径表达式来选择XML文档中的节点或节点集合。在XPath中有七种节点:元素、属性、文字、命名空间、处理说明、注释和根节点。具体的路径表达式规则大家可以参考相关资料。
七、MSXML API版本
这一节是最新加进来的,因为上面第一节说了一下MSXML的版本,但是还有一个MSXML API的版本,这两者比较容易混淆,在此说明一下。第一节说的是MSXML dll库文件的版本,而API的版本是另一套规则。历史版本有:MSXML1.0、MSXML1.0 SP1/SP2、MSXML2.0、MSXML2.6、MSXML3.0、MSXML4.0、MSXML5.0 for Microsoft Office Applications,这些版本中较早的MSXML1.0和MSXML1.0 SP1/SP2现在都已不再支持,MSXML2.0是处理XML文档最常用的版本,后面的版本都是添加了一些新的功能接口。
基本的概念就这些了,希望对大家了解MSXML有所帮助。