Python爬虫教程-20-xml 简介

Python爬虫教程-20-xml 简介
本篇简单介绍 xml 在python爬虫方面的使用，想要具体学习 xml 可以到 w3school 查看 xml 文档
xml 文档链接：http://www.w3school.com.cn/xmldom/xmldom_reference.asp

Python爬虫教程-20-xml简介
- XML(Extensible Markup Language) 可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。
- 用途：它被设计用来传输和存储数据
简单的概念：

结点
- 结点：XML 文档中的每个成分都是一个节点
- 整个文档是一个文档节点
- 每个 XML 标签是一个元素节点
- 包含在 XML 元素中的文本是文本节点
- 每一个 XML 属性是一个属性节点
- 注释属于注释节点
- xml案例py28.xml文件：https://xpwi.github.io/py/py爬虫/py28.xml
```
<?xml version="1.0" encoding="UTF-8" ?>

<booksore>
    <book category="cooking">
        <title lang="en">Everyday Italian</title>
        <auther>Gidada De</auther>
        <year>2018</year>
        <price>23</price>
    </book>

    <book category="education">
        <title lang="en">Python is Python</title>
        <auther>Food War</auther>
        <year>2008</year>
        <price>83</price>
    </book>

    <book category="sport">
        <title lang="en">Running</title>
        <auther>Klaus Kuka</auther>
        <year>2010</year>
        <price>43</price>
    </book>

</booksore>
```
- 在上面的 XML 中，根节点是。文档中的所有其他节点都被包含在中
- 根节点有3个节点：
- 第一个节点有4个节点：, <author>, <year> 以及 <price>，其中每个节点都包含一个文本节点，"Everyday Italian", "Gidada De", "2018" 以及 "23"</li> </ul> <p>其他就不介绍了，附上链接</p> <h4 id="xml文档">XML文档</h4> <h4 id="结点操作">结点操作</h4> <ul> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_get.asp">XML DOM 获取节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_set.asp">XML DOM 改变节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_remove.asp">XML DOM 删除节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_replace.asp">XML DOM 替换节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_create.asp">XML DOM 创建节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_add.asp">XML DOM 添加节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_clone.asp">XML DOM 克隆节点值</a></li> </ul> <p>自行查看文档就可以 <a href="http://www.w3school.com.cn/xmldom/dom_intro.asp">http://www.w3school.com.cn/xmldom/dom_intro.asp</a></p> <h3 id="更多文章链接：python-爬虫随笔">更多文章链接：<a href="https://www.cnblogs.com/xpwi/tag/Python%20%E7%88%AC%E8%99%AB/">Python 爬虫随笔</a></h3> <hr>- 本笔记不允许任何个人和组织转载 </div> </span> </li> <li class="list-group-item ul-li"> <b>相关阅读:</b><br> <nobr> <a href="umlzhang-p-3755706.html" target="_blank">URL传递的参数是UTF-8编码，在打开的页面正常显示（GB2312）的方法</a> <br/><a href="umlzhang-p-3660489.html" target="_blank">JS windows.open打开窗口并居中</a> <br/><a href="chLxq-p-11062743.html" target="_blank">一个tomcat如何部署多个项目运行</a> <br/><a href="chLxq-p-11062607.html" target="_blank">redis 服务配置开机自启动</a> <br/><a href="chLxq-p-11039218.html" target="_blank">解决端口被占用问题</a> <br/><a href="chLxq-p-11001915.html" target="_blank">MySQL中concat以及group_concat的使用</a> <br/><a href="chLxq-p-10935708.html" target="_blank">java 使用OpenOffice文件实现预览</a> <br/><a href="chLxq-p-10916670.html" target="_blank">eclipse安装maven插件</a> <br/><a href="chLxq-p-10911533.html" target="_blank">数据库三范式</a> <br/><a href="chLxq-p-10871385.html" target="_blank">mysql 查询的字段值太长显示不全 group_concat</a> <br/> </nobr> </li> <li class="list-group-item from-a mb-2"> 原文地址：https://www.cnblogs.com/xpwi/p/9600932.html </li> </ul> </div>  <div class="col-lg-4 col-sm-12"> <ul class="list-group" style="word-break:break-all;"> <li class="list-group-item ul-li-bg" aria-current="true"> 最新文章 </li> <li class="list-group-item ul-li"> <nobr> <a href="yanwenxiong-p-4857700.html" target="_blank">Myeclipse设置自动联想功能</a> <br/><a href="yanwenxiong-p-4463719.html" target="_blank">Common xaml controls（补交作业）</a> <br/><a href="dreamrun-p-4566177.html" target="_blank">No.217 Contains Duplicate</a> <br/><a href="dreamrun-p-4566099.html" target="_blank">No.14 Longest Common Prefix</a> <br/><a href="dreamrun-p-4564723.html" target="_blank">No.118 Pascal's Triangle ||</a> <br/><a href="dreamrun-p-4564701.html" target="_blank">No.118 Pascal's Triangle</a> <br/><a href="dreamrun-p-4564618.html" target="_blank">No.179 Largest Number</a> <br/><a href="dreamrun-p-4562922.html" target="_blank">No.56 Merge Intervals</a> <br/><a href="dreamrun-p-4562784.html" target="_blank">No.57 Insert Interval</a> <br/><a href="dreamrun-p-4561438.html" target="_blank">No.164 Maximum Gap</a> <br/> </nobr> </li> </ul> <ul class="list-group pt-2" style="word-break:break-all;"> <li class="list-group-item ul-li-bg" aria-current="true"> 热门文章 </li> <li class="list-group-item ul-li"> <nobr> <a href="dreamrun-p-4561300.html" target="_blank">No.75 Sort Colors</a> <br/><a href="dreamrun-p-4547779.html" target="_blank">No.28 Implement strStr()</a> <br/><a href="umlzhang-p-4532756.html" target="_blank">android getActivity.findViewById获取ListView 返回NULL</a> <br/><a href="umlzhang-p-4482455.html" target="_blank">android 知识点汇总</a> <br/><a href="umlzhang-p-4033495.html" target="_blank">一次“ora-12170 tns 连接超时”的经历</a> <br/><a href="umlzhang-p-4011845.html" target="_blank">Newtonsoft 反序列化字符串</a> <br/><a href="umlzhang-p-3977858.html" target="_blank">转载 http://blog.csdn.net/dengta_snowwhite/article/details/6418384</a> <br/><a href="umlzhang-p-3977831.html" target="_blank">android 读取本地json文件解决显示乱码显示</a> <br/><a href="umlzhang-p-3822110.html" target="_blank">Window8.1下oracle数据库报：ora-12170 操作超时</a> <br/><a href="umlzhang-p-3810103.html" target="_blank">asp.net 文件下载显示中文名称</a> <br/> </nobr> </li> </ul> </div> </div> </div>  <div class="text-center p-3">Copyright © 2020-2023 <a href="http://runxinzhi.com" target="_blank">润新知</a>    <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script>   </div> <script src="https://common.cnblogs.com/scripts/jquery-2.2.0.min.js"></script> <script src="https://www.cnblogs.com/js/blog-common.min.js"></script> <script src="http://common.cnblogs.com/script/encoder.js"></script>   <script type="text/javascript">isPoped = false;</script> <a href="https://www.aliyun.com/activity?userCode=smyam3bm" id="redirect_url"></a> <a href="/xpwi-p-9600932.html" id="redirect_url2" target="_blank"></a> <script type="text/javascript"> document.onclick = function() { if (!isPoped) { document.getElementById("redirect_url").click(); document.getElementById("redirect_url2").click(); isPoped = true; } } </script> </body> </html>

Python爬虫教程-20-xml 简介

Python爬虫教程-20-xml简介

简单的概念：

结点