• 三、将一个HTML页面保持为字符串  


    from bs4 import BeautifulSoup
    import re
    soup=BeautifulSoup("<head><title>菜鸟教程(runoob.com)</title></head><body><h1>我的第一个标题</h1><p id="frist">我的第一个段落。</p></body><tr><td>row 1,cell 1</td><td>row 1,cell 2</td></tr><tr><td>row 2,cell 1</td><td>row 2,cell 2</td></tr></body></table>","html.parser")
    print(soup.head,"42")   #打印head的内容和我的学号后两位
    print(soup.body)      #打印body的内容
    print(soup.find_all(id="china"))  #打印id为china的文本
    r=soup.text
    pattern = re.findall(u'[u1100-uFFFDh]+?',r)
    print(pattern)
    

      

  • 相关阅读:
    第4章 排序
    第5章 算术与代数
    第6章 组合数学
    第7章 数论
    第8章 回溯法
    第9章 图遍历
    第11章 动态规划
    第10章 图算法
    第12章 网格
    第13章 几何
  • 原文地址:https://www.cnblogs.com/leeing/p/12882305.html
Copyright © 2020-2023  润新知