使用python爬取一个网页里表格的内容

#--*--conding:utf-8 --*--
# Author: Gonggong
# 使用python爬取一个网页中表格的内容，并把抓取到的内容以json格式保存到文件中

import requests
from lxml import etree
import json


# 获取网页源代码
r = requests.get('http://ipwhois.cnnic.cn/bns/query/Query/ipwhoisQuery.do?queryOption=ipv4&txtquery=8.8.8.8')

# 使用xpath对爬取的源代码进行处理
dom_tree = etree.HTML(r.content)
links = dom_tree.xpath("/html/body/center[1]/table[1]/tr/td/font")

# 取出links的单行、双行的数据
res1 = [i.text for i in links[::2]]
res2 = [i.text for i in links[1::2]]

# 把两行数据组合成在一起
result = tuple(zip(res1, res2))

# 使用json格式保存到文件中
json.dump(result, open('/tmp/xpath_get.txt', 'w'), ensure_ascii=False)

相关阅读:
携程开源框架Apollo基础学习（一）
nslookup，dig，host的用法详解
curl命令学习
Saltstack本地管理无master模式
Mybatis 动态 sql 是做什么的？都有哪些动态 sql？能简述一下动态 sql 的执行原理不？
JSP和Servlet有哪些相同点和不同点，他们之间的联系是什么？
#{}和${}的区别是什么？
为什么说 Mybatis 是半自动 ORM 映射工具？它与全自动的区别在哪里？
MyBatis 与 Hibernate 有哪些不同？
MyBatis 的好处是什么？

原文地址：https://www.cnblogs.com/relax1949/p/9338562.html