import requests
s=requests.Session()
re=s.get(lgurl,headers=headers) #此处s可以直接换成requests
the_page=re.content #content 为二进制文本
from lxml import etree
html=etree.HTML(the_page)
joblistPath='//*[@id="s_position_list"]/ul/li' #此处joblistPath可使用浏览器中的copy xpath选项中的内容
result=html.xpath(joblistPath)
result[0].tag #获取result结果集中第一个元素的标签名称,例<a class='shjdb' > 中的tag是a.
result[0].xpath(/a/@href) #返回根目录下a下所有子元素的属性href的值,例<a href='shjdb' > <li href='123.com'>,中返回的是‘123.com’.
result[0].text #返回的是元素的内容,即标签对中间的文本,例<a href="link5.html">fifth item</a>中返回的是fifth item