出 关① 徐兰
凭山俯海古边州, 旆②影风翻见戍楼。
马后桃花马前雪,出关争得不回头?
[注]关,指居庸关。②旆(pèi),旌旗。
刚刚学习用python写爬虫,实战一下。
抓取出一个网页的内容之后,里面带有很多①这样的特殊字符。
这些字符去掉还不行,必须要显示出来。
一路,百度、google最后终于找到了方法。
特写此博文,记录下来。
使用python中html.unescape()方法就可以输出html中的实体字符
1 #!/usr/bin/env python 2 # encoding: utf-8 3 """ 4 出 关① 徐兰 5 凭山俯海古边州, 旆②影风翻见戍楼。 6 马后桃花马前雪,出关争得不回头? 7 [注]①关,指居庸关。②旆(pèi),旌旗。 8 """ 9 import html 10 string = '[注]①关,指居庸关。②旆(pèi),旌旗。' 11 print(html.unescape(string)) #[注]①关,指居庸关。②旆(pèi),旌旗。