lxml解析html文件输出为dataframe

本地html文件分为表头节点<th>和表格内容节点<td>,父节点<tr>

import pandas as pd
from pandas.io.parsers import TextParser
from lxml.html import parse
from lxml import etree

htmlf = open("C:/Users/Administrator/Desktop/11/ho_relation_tdd-enm2.html", 'r', encoding="utf-8").read()
doc = etree.HTML(htmlf)
rows = doc.xpath('.//tr')
header = rows[0].xpath(".//th/text()")
data = [i.xpath(".//td/text()") for i in rows[1:]]
df = TextParser(data, names=header).get_chunk()

相关阅读:
GAN对抗神经网络（原理解析）
Wasserstein distance（EM距离）
浅谈KL散度
深度学习中 Batch Normalization是什么
Batch Normalization的正确打开方式
对于梯度消失和梯度爆炸的理解
[转贴]loadrunner 场景设计-添加Unix、Linux Resources计数器
Volley（四）—— ImageLoader & NetworkImageView
SQL单表查询
ifconfig命令详解

原文地址：https://www.cnblogs.com/huangyz-xy/p/13622123.html