XML解析之使用Jaxp对XML进行DOM解析

1.XML的解析方式对比:

我们写好XML文档后,需要对XML文档进行CRUD,这就涉及如何对XML文档进行解析.

•dom：(Document Object Model, 即文档对象模型) 是 W3C 组织推荐的处理 XML 的一种方式。

•sax： (Simple API for XML) 不是官方标准，但它是 XML 社区事实上的标准，几乎所有的 XML 解析器都支持它。

DOM解析 SAX解析

优点 DOM将文档中的元素封装成对象 ,在内存中以树的结构存放,这样节点与节点之间有关系, 便于CRUD(create read update delete) 读一行解析一行,内存消耗相对较小,适合处理大型的XML文档

缺点如果文档比较大(>1GB)那么再把文档中的元素封装成DOM对象可能导致内存溢出不能CUD,如果想考虑DOM

XML解析器

•Crimson、Xerces 、Aelfred2

XML解析开发包

•Jaxp、Jdom、dom4j

2.Jaxp对XML进行DOM解析:

JAXP 开发包是J2SE的一部分，它由javax.xml、org.w3c.dom 、org.xml.sax 包及其子包组成

在 javax.xml.parsers 包中，定义了几个工厂类，程序员调用这些工厂类，可以得到对xml文档进行解析的 DOM 或 SAX 的解析器对象。

例如:book.xml
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<!DOCTYPE 书架 SYSTEM "book.dtd">
<书架>
<书>
    <书名>JavaWeb</书名>
    <作者 姓名="王五"/>
    <售价>50元</售价>
    <页面作者 个人爱好="上网" 网站职务="页面作者" 联系信息=""/>
 </书>
</书架>

利用程序遍历内存中的dom树:(该思想和利用JS遍历HTML在内存的DOM树一致):
package itheima;
 
import java.io.File;
import java.io.IOException;
 
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;
 
import org.junit.Test;
import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;
 
public class JaxpParseXml {
    private String allNodesStr="";
    @Test
    public  void jaxpTest() throws ParserConfigurationException, SAXException, IOException{
        //获取工厂实例
       DocumentBuilderFactory dbf=DocumentBuilderFactory.newInstance();
        
       //获取DOM解析器
       DocumentBuilder db=dbf.newDocumentBuilder();
      
       //获取当前XML文档的dom实例
       Document dom=db.parse(new File("book.xml"));
      
       //打印这棵DOM树
    printDOM(dom,0);
    System.out.println(allNodesStr);
    
    //该方法主要是看书架的子节点#text的value值:
     textNodeTest(dom);
    } 
   public void printDOM(Node root,int level){
    printFormat(root,level);// 如果不加这句话在下面调用printDOM(nextNode,level);方法的节点不能被打印
    Node nextNode=null;  
    NodeList childNodes=null;
    if(root.hasChildNodes()){
         childNodes=root.getChildNodes();
        ++level;//每递归一次,级数+1
         for(int i=0;i<childNodes.getLength();++i){
             nextNode=childNodes.item(i); 
             if(nextNode.hasChildNodes())//该节点是否有子节点
                 printDOM(nextNode,level);
             else
                 printFormat(nextNode,level);
         }
    }
   }
   public void printFormat(Node nextNode,int level){
        allNodesStr+=format(level)+nextNode.getNodeName()+"..."+nextNode.getNodeType()+"..."+
                nextNode.getNodeValue()+"
";
       }
   public String format(int level){//凸显层级目录
       StringBuilder sb=new StringBuilder("|--");
       while((level--)!=0)
           sb.insert(0,'*');
       return sb.toString();
   }
   
   public void textNodeTest(Node node){
      char[] charArr=node.getChildNodes().item(1).getChildNodes()
               .item(0).getNodeValue().toCharArray();
      System.out.println(charArr.length);
       for(char ch : charArr)
           System.out.println((int)ch);//10->换行(
)
   }
}
依照打印结果做出这颗DOM树:
注意一些问题:
1.#document节点为文档树的根,文档节点.
2.这里有两个书架节点,注意其type不同,type=1代表XML文档中的<书架></书架>
  type=10代表<!DOCTYPE 书架 SYSTEM "book.dtd">
    类型名                      说明
    Node                        表示所有类型值的统一接口，IE 不支持
    Document                    表示文档类型
    Element                     表示元素节点类型
    Text                        表示文本节点类型
    Comment                     表示文档中的注释类型
    CDATASection                表示CDATA 区域类型
    DocumentType                表示文档声明类型
    DocumentFragment            表示文档片段类型
    Attr                        表示属性节点类型
常量名说明                 nodeType          值
    ELEMENT_NODE                  元素            1
    ATTRIBUTE_NODE                属性            2
    TEXT_NODE                     文本            3
    CDATA_SECTION_NODE            CDATA           4
    ENTITY_REFERENCE_NODE         实体参考        5
    ENTITY_NODE                   实体            6
    PROCESSING_INSTRUCETION_NODE 处理指令        7
    COMMENT_NODE                  注释            8
   DOCUMENT_NODE                 文档根           9
   DOCUMENT_TYPE_NODE            doctype          10
   DOCUMENT_FRAGMENT_NODE        文档片段         11
   NOTATION_NODE                 符号             12

3.注意到DOM树中没有属性节点关于这点:属性节点不是元素的子节点，它只是描述该元素节点的一些性质而已，属于元素节点结构内部的一部分

3.DOM解析对XML文档进行CRUD(以上的book.xml不引用外部的dtd文档,book.xml的encoing="GBK"): (和用JS编程对DHTML的DOM树操作思想一致)

a.对于获取xml文件的DOM以及将内存中的DOM写入硬盘中的xml文件,经常用到,把他们两个分别封装在两个方法中:
   public Document getDOM(String  xmlPath) throws ParserConfigurationException, SAXException, IOException{
          DocumentBuilderFactory dbf=DocumentBuilderFactory.newInstance();
          DocumentBuilder db=dbf.newDocumentBuilder();
          return db.parse(new File(xmlPath));//拿到book.xml的dom
      }
 
    //将内存中的DOM写入到xml文件中,需要用到
    //javax.xml.transform.TransFormer:将源DOM树转化为结果DOM树
    public void write2XML(Node dom,String path) throws TransformerFactoryConfigurationError, TransformerException, UnsupportedEncodingException, FileNotFoundException{
          //同获取Document实例思想一致
        Transformer trans=TransformerFactory.newInstance().newTransformer();
         trans.transform(new DOMSource(dom),
       new StreamResult(new OutputStreamWriter(new FileOutputStream(new File(path)),"GBK")));//相当于将内存中修改好的DOM树写入到book.xml中
                                                          
        //trans.transform(new DOMSource(dom), new StreamResult(new File(path)));
         /*默认插入节点的编码方式为UTF-8,上面是用转换流来指定charset,可以解决乱码    
        乱码原因:写入UTF-8字节,而XML文档以GBK解码导致 乱码 ,例如:"你好"被解析为"浣犲ソ"*/
         
         //还有一点:在新的book.xml中<!DOCTYPE>引用外部dtd文件的语句被消除?(暂时未找到解决方法)
    }    
 
b.读取XML中的内容
 
      /*2.获取书名元素(标签)中封装的内容*/
      @Test
      public void getXmlElements() throws ParserConfigurationException, SAXException, IOException{
         
          NodeList eleNode=getDOM("book.xml").getElementsByTagName("书名");//获取到书名元素(标签)
          System.out.println(eleNode.item(0).getTextContent());//JavaWeb//书名中虽然用了引用实体获取,但是也可以通过该方法拿到
       }
   
      /*3.获取页面作者元素中的属性*/
      @Test
      public void getXmlProperties() throws ParserConfigurationException, SAXException, IOException{
        /*  NamedNodeMap attrMap=getDOM("book.xml").getAttributes();
           System.out.println(attrMap);    //注意getDOM代表#document这个节点,其没有属性,因此为null.
       */           
          //方法一:
        NamedNodeMap attrNodes=getDOM("book.xml").getElementsByTagName("页面作者").item(0).getAttributes();
        for(int index=0;index<attrNodes.getLength();++index)
            System.out.println(attrNodes.item(index));//遍历出页面作者中所有的属性及属性值  //属性="属性值"
        System.out.println(attrNodes.getNamedItem("网站职务")+"
");//网站职务="页面作者" //底层AttrImpl复写了toString方法
         
        //方法二:在知道是Element实例的情况下,强制向下转型(Node->Element),为了使用Element提供的获取属性的方法
         Element eleNode=(Element) (getDOM("book.xml").getElementsByTagName("页面作者").item(0));
         System.out.println(eleNode.getAttribute("网站职务"));//该方法以String形式直接返回属性的值
         System.out.println(eleNode.getAttributeNode("网站职务"));//该方法返回Attr,可以进一步使用Attr提供的方法
      }
      
    
c.修改DOM树中的节点:
    /*4.修改DOM树中的节点*/
    @Test
    public void updateNode() throws DOMException, ParserConfigurationException, SAXException, IOException, TransformerFactoryConfigurationError, TransformerException{
           //修该售价标签中封装的内容为"50元"
        Document dom= getDOM("book.xml");
        dom.getElementsByTagName("售价").item(0).setTextContent("50元");//该语句执行完book.xml不会有任何变化
          //因为仅仅是修改了内存中的DOM树,而没有重新写入硬盘上的book.xml.
  
        
        write2XML(dom,"book.xml");          
    }
/*5.在原有的书标签之前再插入一个书标签*/
    @Test
    public void insertNode() throws ParserConfigurationException, SAXException, IOException, TransformerFactoryConfigurationError, TransformerException{
        Document dom= getDOM("book.xml");
        Node bookShelf=dom.getElementsByTagName("书架").item(0);
        Node refChild=dom.getElementsByTagName("书").item(0);
     
        Node bookNode=dom.createElement("书");
        bookShelf.insertBefore(bookNode, refChild);//会将newChild插入到refChild之前
        
        bookNode.appendChild(dom.createElement("你好"));//在书标签中添加一个子节点 书名
        write2XML(dom, "book.xml");
        /*
         犯的错误:
         使用dom.insertBefore(newChild,refChild) :DOMException - HIERARCHY_REQUEST_ERR
         API描述:如果此节点为不允许 newChild 节点类型的子节点的类型,也就是说调用该方法的节点不可能有该子节点
          
         */
    }
原XML文档:
<?xml version="1.0" encoding="GBK" standalone="yes"?>
<书架>
<书>
    <书名>JavaWeb</书名>
    <作者 姓名="王五"/>
    <售价>50元</售价>
    <页面作者 个人爱好="上网" 网站职务="页面作者" 联系信息=""/>
 </书>
</书架>
执行完上面插入节点代码后:
<?xml version="1.0" encoding="GBK"?><书架>
<书><你好/></书><书>
    <书名>JavaWeb</书名>
    <作者 姓名="王五"/>
    <售价>50元</售价>
    <页面作者 个人爱好="上网" 网站职务="页面作者" 联系信息=""/>
 </书>
</书架>
/*删除节点*/
    @Test
    public void deleteNode() throws ParserConfigurationException, SAXException, IOException, TransformerFactoryConfigurationError, TransformerException{
        Document dom=getDOM("book.xml");
        Node delNode=dom.getElementsByTagName("页面作者").item(0);
       Node book=dom.getElementsByTagName("书").item(0);
       book.removeChild(delNode);
       write2XML(dom,"book.xml");
       //删除一个节点,那么该节点的所有子节点将不存在
    }

相关阅读:
LeetCode——376.摆动序列
kaggle——分销商产品未来销售情况预测
LeetCode——264. 丑数 II
LeetCode——71.简化路径
LeetCode——15. 三数之和
kaggle——NFL Big Data Bowl 2020 Official Starter Notebook
LeetCode——199. 二叉树的右视图
数据结构与算法——哈希函数和哈希表等(2)
数据结构与算法——哈希函数与哈希表等(1)
Python——Pandas 时间序列数据处理

原文地址：https://www.cnblogs.com/yiqiu2324/p/3538017.html

	DOM解析	SAX解析
优点	DOM将文档中的元素封装成对象 ,在内存中以树的结构存放,这样节点与节点之间有关系, 便于CRUD(create read update delete)	读一行解析一行,内存消耗相对较小,适合处理大型的XML文档
缺点	如果文档比较大(>1GB)那么再把文档中的元素封装成DOM对象可能导致内存溢出	不能CUD,如果想考虑DOM