• 转 四种操作xml的方式(SAX, DOM, JDOM, DOM4J)比较


    四种操作xml的方式(SAX, DOM, JDOM, DOM4J)比较

     (2010-10-29 15:31:28)
    标签: 

    杂谈

    分类: JAVA技术

    1 介绍

        引子:XML自从出现以来,以其可扩展性、自描述性、自相容性等优点,被誉为信息标准化过程的有力工具,基于XML的标准将成为以后信息标准的主流。伴随而生的是针对XML的操作技术,“名人总的有人去解析”吗!下面是愚人对目前主要的四种操作XML的技术(SAX, DOM, JDOM, DOM4J)做的一个简单比较!自己加深一下印象,当然,如果你不小心来到了我的博客,我谢谢您的光临;再如果,你又不小心读到了这篇博文,我举双手表示欢迎;还是如果,你感觉它还有一点参考的价值,那我就倍更感欣慰了!

    1.1 DOM

       DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准。DOM被认为是基于树或基于对象的。遗憾的是,DOM 方法涉及读取整个文件并将该文件存储在一个树结构中,而这样可能是低效的、缓慢的,并且很消耗资源。

    1.1.1 基于树的处理的优点和缺点(DOM)

        DOM 以及广义的基于树的处理具有几个优点:

        首先,由于树在内存中是持久的,因此可以修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下导航。DOM 使用起来也要简单得多。

        另一方面,在内存中构造这样的树涉及大量的开销。大型文件完全占用系统内存容量的情况并不鲜见。此外,创建一棵 DOM 树可能是一个缓慢的过程。

    1.2 SAX

        SAX解析器采用了基于事件的模型。SAX对内存的要求通常会比较低。

    1.2.1 基于事件的处理的优点和缺点(SAX)

        这种处理的优点非常类似于流媒体的优点。分析能够立即开始,而不是等待所有的数据被处理。而且,由于应用程序只是在读取数据时检查数据,因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上,应用程序甚至不必解析整个文档;它可以在某个条件得到满足时停止解析。一般来说,SAX 还比它的替代者 DOM 快许多。

         另一方面,由于应用程序没有以任何方式存储数据,使用 SAX 来更改数据或在数据流中往后移是不可能的。

    1.3 DOM与SAX

    1.3.1 如何在SAX和DOM之间选择

        选择 DOM 还是选择 SAX,这取决于下面几个因素:

        应用程序的目的:如果打算对数据作出更改并将它输出为 XML,那么在大多数情况下,DOM 是适当的选择。并不是说使用 SAX 就不能更改数据,但是该过程要复杂得多,因为您必须对数据的一份拷贝而不是对数据本身作出更改。

        数据容量:对于大型文件,SAX 是更好的选择。

        数据将如何使用:如果只有数据中的少量部分会被使用,那么使用 SAX 来将该部分数据提取到应用程序中可能更好。另一方面,如果您知道自己以后会回头引用已处理过的大量信息,那么 SAX 也许不是恰当的选择。

    对速度的需要:SAX 实现通常要比 DOM 实现更快。

        SAX 和 DOM 不是相互排斥的,记住这点很重要。您可以使用 DOM 来创建 SAX 事件流,也可以使用 SAX 来创建 DOM 树。事实上,用于创建 DOM 树的大多数解析器实际上都使用 SAX 来完成这个任务!

    1.3.2 JAXP

        Sun是规范的制订者,于是参考W3C的标准制订了JAXP规范。

        JAXP它只是一个规范,完成了对SAX、DOM的包装,生成了DocumentBuilderFactory、 DocumentBuilder和SAXParserFactory、SAXParser。JAXP的作用就是提出一个统一的接口,让其它的XML API都来遵循JAXP编程。当你严格采用JAXP编程的时候,是遵循W3C的DOM标准的,那么在JAXP底层你实际上可以任意切换不同的DOM实现(也就是解释器),例如Xerces,或者Crimon,再或者其它,切换方法就是配置jaxp.properties。因此JAXP就是一些标准接口而已。

        JAXP应用程序 -> JAXP接口 -> Xerces DOM实现 -> Xerces DOM/SAX 解析器

        JAXP应用程序 -> JAXP接口 -> Crimson DOM实现 -> Crimson DOM/SAX 解析器

        JAXP应用程序 -> JAXP接口 -> Crimson DOM实现 -> Xerces DOM/SAX 解析器

    1.4 JDOM

        JDOM的目的是成为Java特定文档模型,它简化与XML的交互并且比使用DOM实现更快。

    1.5 DOM4J

        DOM4J合并了许多超出基本XML文档表示的功能,包括集成的XPath支持、XML Schema支持以及用于大文档或流化文档的基于事件的处理。  

        DOM4J是一个非常非常优秀的Java XML API,具有性能优异、功能强大和极端易用使用的特点。

    1.6 JDOM与DOM4J

    1.6.1 JDOM和DOM4J

        JDOM、DOM4J与JAXP都是对DOM、SAX的封装,但是JAXP具备跨平台性,JDOM、DOM4J是具体的应用,采用dom4j/jdom编写的应用程序,不具备可移植性。

        JDOM、DOM4J相当于上面的JAXP接口+DOM实现部分,它本身没有解析器,它可以使用Xerces或者Crimson的解析器。

        jdom应用程序 -> jdom API -> Xerces/Crimson解析器

        dom4j应用程序 -> dom4j API -> Xerces/Crimson解析器

        dom4j应用程序 -> dom4j API -> Alfred2解析器

    1.6.2 xerces解释器

        在xerces中对jaxp中定义的SAXParser、SAXParserFactory、DocumentBuilder、DocumentBuilderFactory进行了继承,对应SAXParserImpl、SAXParserFactoryImpl、DocumentBuilderImpl、DocumentBuilderFactoryImpl这就是为什么你的classpath中只要有xerces.jar(其中包含了sax dom jaxp )和 xercesImpl.jar就可以的原因了。

    2 比较

        1)DOM4J性能最好,连Sun的JAXM也在用DOM4J。目前许多开源项目中大量采用DOM4J,例如大名鼎鼎的Hibernate也用DOM4J来读取XML配置文件。如果不考虑可移植性,那就采用DOM4J。

        2)JDOM和DOM在性能测试时表现不佳,在测试10M文档时内存溢出。在小文档情况下还值得考虑使用DOM和JDOM。

        3)SAX表现较好,这要依赖于它特定的解析方式-事件驱动。

    3 代码

       这里就只谈理论,从代码角度的比较就不提供了,因为它确实不难,主要还是google上太多了!哈哈,百度上也有!哎!这百度还是不如google!

        不过再说一句废话,如果可以,请选择DOM4J,她的XPath功能确实很简单!值得花时间去学习一下,等改天聊聊!

  • 相关阅读:
    (转) c/c++调用libcurl库发送http请求的两种基本用法
    (转)unordered_map与map的对比(C++11新特性)
    libevent简单介绍
    libevent入门
    日期转换成字符串
    LinkServer
    GridView小记
    SoapHeader
    Credential
    Notepad++ Emmet/Zen coding插件的安装
  • 原文地址:https://www.cnblogs.com/mybabyyh/p/4251530.html
Copyright © 2020-2023  润新知