• Pyuthon正则表达式re模块(高阶练习)


    '''


    import re
    f = open("douban.html","r",encoding="utf8")
    data = f.read()
    #print(data)

    ret1 = re.findall('<div class="item">.*?<span class="rating_num".*?>(.+?)</span>',data,re.S)
    ret2 = re.findall('<div class="item">.*?<span class="title">(.+?)</span>',data,re.S)
    ret3 = re.findall('<div class="item">.*?<span class="title">(.+?)</span>.*?<span class="rating_num".*?>(.+?)</span>',data,re.S)
    ret4 = re.findall('<div class="item">.*?<div class="star">.*?<span>(.+?)</span>',data,re.S)
    ret5 = re.findall('<div class="item">.*?<p class="quote">.*?<span class="inq">(.+?)</span>',data,re.S)
    ret6 = re.findall('<div class="item">.*?<span class="title">(.+?)</span>.*?<span class="rating_num".*?>(.+?)</span>.*?<div class="star">.*?<span>(.+?)</span>.*?<p class="quote">.*?<span class="inq">(.+?)</span>',data,re.S)

    #print(ret1)
    # ['9.7', '9.6', '9.5', '9.4', '9.4', '9.6', '9.4', '9.5', '9.3', '9.4', '9.4', '9.3', '9.3', '9.2', '9.3', '9.3', '9.3', '9.2', '9.2', '9.3', '9.3', '9.2', '9.6', '9.2', '9.1']
    #print(ret2)
    # ['肖申克的救赎', '霸王别姬', '阿甘正传', '泰坦尼克号', '这个杀手不太冷', '美丽人生', '千与千寻', '辛德勒的名单', '盗梦空间', '忠犬八公的故事', '星际穿越', '楚门的世界', '海上钢琴师', '三傻大闹宝莱坞', '机器人总动员', '放牛班的春天', '无间道', '疯狂动物城', '大话西游之大圣娶亲', '熔炉', '教父', '当幸福来敲门', '控方证人', '龙猫', '怦然心动']
    #print(ret3)
    # [('肖申克的救赎', '9.7'), ('霸王别姬', '9.6'), ('阿甘正传', '9.5'), ('泰坦尼克号', '9.4'), ('这个杀手不太冷', '9.4'), ('美丽人生', '9.6'), ('千与千寻', '9.4'), ('辛德勒的名单', '9.5'), ('盗梦空间', '9.3'), ('忠犬八公的故事', '9.4'), ('星际穿越', '9.4'), ('楚门的世界', '9.3'), ('海上钢琴师', '9.3'), ('三傻大闹宝莱坞', '9.2'), ('机器人总动员', '9.3'), ('放牛班的春天', '9.3'), ('无间道', '9.3'), ('疯狂动物城', '9.2'), ('大话西游之大圣娶亲', '9.2'), ('熔炉', '9.3'), ('教父', '9.3'), ('当幸福来敲门', '9.2'), ('控方证人', '9.6'), ('龙猫', '9.2'), ('怦然心动', '9.1')]
    #print(ret4)
    # ['2531553人评价', '1881816人评价', '1901902人评价', '1863665人评价', '2061585人评价', '1166880人评价', '1983192人评价', '973254人评价', '1826467人评价', '1252941人评价', '1507212人评价', '1429124人评价', '1483958人评价', '1661011人评价', '1170333人评价', '1155018人评价', '1156637人评价', '1658930人评价', '1355811人评价', '824747人评价', '831268人评价', '1343108人评价', '423299人评价', '1119833人评价', '1606104人评价']
    #print(ret5)
    # ['希望让人自由。', '风华绝代。', '一部美国近现代史。', '失去的才是永恒的。 ', '怪蜀黍和小萝莉不得不说的故事。', '最美的谎言。', '最好的宫崎骏,最好的久石让。 ', '拯救一个人,就是拯救整个世界。', '诺兰给了我们一场无法盗取的梦。', '永远都不能忘记你所爱的人。', '爱是一种力量,让我们超越时空感知它的存在。', '如果再也不能见到你,祝你早安,午安,晚安。', '每个人都要走一条自己坚定了的路,就算是粉身碎骨。 ', '英俊版憨豆,高情商版谢耳朵。', '小瓦力,大人生。', '天籁一般的童声,是最接近上帝的存在。 ', '香港电影史上永不过时的杰作。', '迪士尼给我们营造的乌托邦就是这样,永远善良勇敢,永远出乎意料。', '一生所爱。', '我们一路奋战不是为了改变世界,而是为了不让世界改变我们。', '千万不要记恨你的对手,这样会让你失去理智。', '平民励志片。 ', '比利·怀德满分作品。', '人人心中都有个龙猫,童年就永远不会消失。', '真正的幸福是来自内心深处。']
    #print(ret6)
    # [('肖申克的救赎', '9.7', '1881816人评价', '风华绝代。'), ('阿甘正传', '9.5', '1863665人评价', '失去的才是永恒的。 '), ('这个杀手不太冷', '9.4', '1166880人评价', '最美的谎言。'), ('千与千寻', '9.4', '973254人评价', '拯救一个人,就是拯救整个世界。'), ('盗梦空间', '9.3', '1252941人评价', '永远都不能忘记你所爱的人。'), ('星际穿越', '9.4', '1429124人评价', '如果再也不能见到你,祝你早安,午安,晚安。'), ('海上钢琴师', '9.3', '1661011人评价', '英俊版憨豆,高情商版谢耳朵。'), ('机器人总动员', '9.3', '1155018人评价', '天籁一般的童声,是最接近上帝的存在。 '), ('无间道', '9.3', '1658930人评价', '迪士尼给我们营造的乌托邦就是这样,永远善良勇敢,永远出乎意料。'), ('大话西游之大圣娶亲', '9.2', '824747人评价', '我们一路奋战不是为了改变世界,而是为了不让世界改变我们。'), ('教父', '9.3', '1343108人评价', '平民励志片。 '), ('控方证人', '9.6', '1119833人评价', '人人心中都有个龙猫,童年就永远不会消失。')]
    '''
  • 相关阅读:
    ServletWebServerApplicationContext -带有*WebxxxApplication的容器
    SpringMvc-DispatchServlet初始化
    SimpleDateFormat和java8日期格式化
    01导入配置类和用户自定义添加db。ImportBeanDefinitionRegistrar和DeferredImportSelector
    @ConfigurationProperties和@PropertySource
    mybatis语句的存储
    leetCode3: 无重复字符的最长子串
    八锁问题
    数据库杂记
    背包问题
  • 原文地址:https://www.cnblogs.com/A121/p/16124260.html
Copyright © 2020-2023  润新知