python3 使用 lxml 解析 HTML 时出现中文乱码
问题
- 没有进行编码, 解析中文时乱码
html = etree.parse(html_path, etree.HTMLParser())
解决办法
- 在指定 parser 的时候对 HTML 进行编码
html = etree.parse(html_path, etree.HTMLParser(encoding="utf-8"))
html = etree.parse(html_path, etree.HTMLParser())
html = etree.parse(html_path, etree.HTMLParser(encoding="utf-8"))