• BeautifulSoup 剔除 HTML script 脚本;删除指定 class标签


    BeautifulSoup 剔除 HTML script 脚本,删除指定 class标签

    剔除 script

    方式一:

    [s.extract() for s in soup("script")]
    

    方式二:

        def H5_filter(self):
            '''
            对爬取的 H5 进行过滤
            :return:
            '''
            page = self.crawl_succ_page()
            soup = BeautifulSoup(page, 'lxml')
    		
            # 获取文本消息
            title = soup.select('.rich_media_title')[0].get_text()
    
            tags = soup.find_all()
            for tag in tags:
                if tag.name == 'script':
                    tag.decompose()  # 剔除所有 script 脚本
            filter_script_body = soup.find('body')  # 只拿 body
            
            article = soup.find('body').text
    
            return filter_script_body, article, title
    

    删除指定 class

    for span in soup.find_all('span', {'class': 'weapp_display_element js_weapp_display_element'}): # 剔除指定 class
        span.decompose()
    

    如果要删除带有特定id的div,例如decompose(),则可以使用

    soup.find('div', id="main-content").decompose()
    
  • 相关阅读:
    mem 预留内存
    关于内核反汇编,同时显示源文件
    读些笔记
    platform设备驱动
    glut 右键子菜单
    获取HINSTANCE
    window窗口样式style
    opengl 直线拾取
    glut弹出式菜单
    读取大恒采集卡c++代码
  • 原文地址:https://www.cnblogs.com/kai-/p/13418734.html
Copyright © 2020-2023  润新知