一、XML概述
属性文件是用来描述程序配置,属性文件包含了一组名/值对。属性文件采用的是一种单一的平面层次结构,同时属性文件要求键是唯一的。
XML格式能够表达层次结构,并且重复的元素不会被曲解。
HTML和XML之间的区别:
1、与HTML不同,XML是大小写敏感的。
2、在HTML中,如果从上下文中可以分清哪里是段落或列表项的结尾,那么结束标签就可以省略,而在XML中结束标签绝对不能省略。
3、在XML中,只有单个标签而没有相对应的结束标签的元素必须以/结尾。
4、在XML中,属性值必须用引号括起来。在HTML中,引号是可有可无的。
5、在HTML中,属性名可以没有值。在XML中,所有属性必须都有属性值。
XML文档应当以一个文档头开始(文档头是可选的),文档头之后通常是文档类型定义(文档类型定义是确保文档正确的一个重要机制,但是它不是必需的),最后,XML文档的正文包含根元素,根元素包含其他元素。
元素可以有子元素,文本或两者皆有。XML元素可以包含属性(属性只应该用来修改值的解释)。
XML文档的其他标记:
1、字符引用的形式是&#十进制值;或&#x十六进制值。
2、实体引用的形式是&name。(<>&"&apos都有预定义的含义:小于、大于、&、引号、省略号)。
3、CDATA部分用<![CDATA[ 和 ]]>来限定其界限。它们是字符数据的一种特殊形式。你可以使用它们来囊括那些含有<、>、&之类字符的字符串,而不必将它们解释为标记。CDATA部分不能包含字符串]]>,使用这一特性时要特别小心,因为它常用来当作将遗留数据偷偷纳入XML文档的一个后门。
4、处理指令是那些专门在处理XML文档的应用程序中使用的指令,它们由<?和?>来限定其界限。每个XML都以一个处理指令开头。
5、注释用<!-和-->限定其界限。注释不应该含有字符串--。注释只能是给文档的读者提供的信息,其中绝不应该含有隐藏的命令,命令应该是用来处理指令来实现的。
二、解析XML文档
Java库提供了两种XML解析器:
1、像文档对象模型解析器这样的树形解析器,它们将读入的XML文档转换成树结构。
2、像XML简单API解析器这样的流机制解析器,它们在读入XML文档时生成相应的事件。
三、验证XML文档
如果要指定文档结构,可以提供一个文档类型定义(DTD)或一个XML Schema定义。DTD或Schema包含了用于解释文档应如何构成的规则,这些规则指定了每个元素的合法子元素和属性。
四、使用XPath来定位信息。
五、流机制解析器
Java类库提供的两种流机制解析器:
1、SAX解析器:使用的是事件回调。
2、StAX解析器:提供了遍历解析事件的迭代器。
六、XSL转换
XSL转换机制可以指定将XML文档转换为其他格式的规则。