lxml简单用法解析网页

import requests

s=requests.Session()

re=s.get(lgurl,headers=headers) #此处s可以直接换成requests

the_page=re.content #content 为二进制文本

from lxml import etree

html=etree.HTML(the_page)

joblistPath='//*[@id="s_position_list"]/ul/li' #此处joblistPath可使用浏览器中的copy xpath选项中的内容

result=html.xpath(joblistPath)

result[0].tag #获取result结果集中第一个元素的标签名称，例<a class='shjdb' > 中的tag是a.

result[0].xpath(/a/@href) #返回根目录下a下所有子元素的属性href的值，例<a href='shjdb' > <li href='123.com'>,中返回的是‘123.com’.

result[0].text #返回的是元素的内容，即标签对中间的文本，例<a href="link5.html">fifth item</a>中返回的是fifth item

相关阅读:
opencv学习笔记7 重映射和仿射变换
opencv学习笔记8 高斯金字塔，拉普拉斯金字塔，调整大小
opencv学习笔记6 角点检测
opencv学习笔记5 霍夫变换漫水填充
opencv学习笔记4 边缘检测
opencv学习笔记3 滤波形态学
opencv学习笔记2 拖动条，亮度对比度颜色空间缩减鼠标事件
opencv学习笔记1 加载图像图像融合分通道与合并
URL编码表
BUUCTF-[GWCTF 2019]我有一个数据库 1

原文地址：https://www.cnblogs.com/Ting-light/p/9548153.html

lxml简单用法 解析网页