• Python3正则去掉HTML标签


    Python3正则去掉HTML标签

    1.引用一段代码

    import re
     
    html = '<pre class="line mt-10 q-content" accuse="qContent">
    目的是通过第一次soup.find按class粗略筛选并通过soup.find_all筛选出列表中的a标签并读入href和title属性<br><br>
    但是由于目标链接可能有图片链接,而这是我不想要的.请问如何去除?<br></pre>'
     
    reg = re.compile('<[^>]*>')
     
    print(reg.sub('',html))
    

    2.重点

    reg = re.compile('<[^>]*>')
     
    print(reg.sub('',html))
    

    3.实例

    开始

    import requests
    import re
    from bs4 import BeautifulSoup
    retxt=open('test.log','r')
    for x in range(250,999):
        #rurl=rurl.strip('
    ')
        url='http://ananas.mooc1.mti100.com/tologin?fid={0}'.format(x)
        #print(url)
        try:
    
            response=requests.get(url,timeout=1).text
            #print(response)
            soup=BeautifulSoup(response,features="lxml")
            result=soup.find_all('span',attrs={'class':'l_schoolName2'})
            print('学校:{0}'.format(result))
        except requests.exceptions.InvalidURL:
            pass
        except requests.exceptions.ConnectionError:
            pass
        except requests.exceptions.ReadTimeout:
            pass
    

    输出

    学校:[<span class="l_schoolName2" id="schoolName2">
                                    杭州师范大学
                            </span>]
    学校:[<span class="l_schoolName2" id="schoolName2">
    

    去除标签之后

    import requests
    import re
    from bs4 import BeautifulSoup
    #retxt=open('test.log','r')
    for x in range(250,999):
        #rurl=rurl.strip('
    ')
        url='http://ananas.mooc1.mti100.com/tologin?fid={0}'.format(x)
        #print(url)
        try:
    
            response=requests.get(url,timeout=1).text
            #print(response)
            soup=BeautifulSoup(response,features="lxml")
            result=soup.find_all('span',attrs={'class':'l_schoolName2'})
            reg=re.compile('<[^>]*>',re.S)
            print('学校:{0}'.format(reg.sub('',str(result))))
        except requests.exceptions.InvalidURL:
            pass
        except requests.exceptions.ConnectionError:
            pass
        except requests.exceptions.ReadTimeout:
            pass
    

    输出

    学校:[]
    学校:[]
    学校:[
                                    上海电子信息职业技术学院
                            ]
    学校:[]
    学校:[
                                    超星大学
    
  • 相关阅读:
    oracle权限配置
    oracle锁表处理
    小组成员
    个人项目 Individual Project
    Java单元测试框架 JUnit
    MyEclipse的快捷键大全(超级实用,方便)
    vs2008 连接 vss2005 出现 analyze utility 错误的解决方法
    EXTJS gridpanel 动态设置表头
    IE8不能上网的问题
    一些事件的评论
  • 原文地址:https://www.cnblogs.com/8gman/p/12308178.html
Copyright © 2020-2023  润新知