在Python中使用正则表达式去掉字符串里的html标签

有时候会获得一些带html标签的字符串，需要把html标签去掉，获得干净的字符串，这时候可以使用正则表达式。

代码如下：

import re

htmeString = '''<ul id="TopNav"><li><a href="/EditPosts.aspx" id="TabPosts">随笔</a></li>
        <li><a href="/EditArticles.aspx" id="TabArticles">文章</a></li>
        <li><a href="/EditDiary.aspx" id="TabDiary">日记</a></li>
        <li><a href="/Feedback.aspx" id="TabFeedback">评论</a></li>
        <li><a href="/EditLinks.aspx" id="TabLinks">链接</a></li>
        <li id="GalleryTab"><a href="/EditGalleries.aspx" id="TabGalleries">相册</a></li>
        <li id="FilesTab"><a href="Files.aspx" id="TabFiles">文件</a></li>
        <li><a href="/Configure.aspx" id="TabConfigure">设置</a></li>
        <li><a href="/Preferences.aspx" id="TabPreferences">选项</a></li></ul>'''


# 方法 1 
pre = re.compile('>(.*?)<') 
s1 = ''.join(pre.findall(htmlString))
print(s1)   # '随笔文章日记评论链接相册文件设置选项'


# 方法 2
s2 = re.sub(r'<.*?>','',htmlString)
print(s2)   # '

随笔
文章
日记
评论
链接
相册
文件
设置
选项

'

# 再用str.replace()函数去掉'
'
s2 = s2.replace('
','')
print(s2)   # '随笔文章日记评论链接相册文件设置选项'

完。

相关阅读:
etcd的原理分析
(转)Linux sort命令
随机森林
python 类的定义和继承
python random
Spark源码阅读(1): Stage划分
Mac 上安装MySQL
Python 删除数组
在循环中将多列数组组合成大数组
准确率召回率

原文地址：https://www.cnblogs.com/yuanyiming/p/9902725.html