• 爬虫实战---爬取猫眼电影


    爬去猫眼电影正字热映电影榜单的前五页:

    #爬取猫眼电影正在热映前5面的所有电影
    import requests
    from requests import RequestException
    import re
    
    def get_one_page(url):
         header ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
         try:
             response = requests.get(url,headers = header)
             if response.status_code == 200:
                 return response.text
             else:
                 return None
         except RequestException:
             return None
    
    def main():
        url = 'http://maoyan.com/films?showType=1'
        html = get_one_page(url)
        return html
    
    if __name__ == '__main__':
        html = main()
        result = re.findall('<dd>.*?<div.*?class="movie-item".*?</div>.*?<div.*?class=.*?title="(w+)".*?>',html,re.S)
        offset = '30'
        url = 'http://maoyan.com/films?showType=1'
        while True:
            url = url + '&offset=' + offset
            html = get_one_page(url)
            for item in re.findall('<dd>.*?<div.*?class="movie-item".*?</div>.*?<div.*?class=.*?title="(w+)".*?>',html,re.S) :
                result.append(item)
            url = 'http://maoyan.com/films?showType=1'
            offset = str(int(offset) + 30)
            if int(offset) > 150:
                break
    
        # for item in result :
        #     print(item)
    
        with open('movies.txt','w+',encoding='utf-8') as f:
            for item in result:
                f.write(item)
                f.write('
    ')
    

    输出结果为:

    侏罗纪世界2
    猛虫过江
    泄密者
    超时空同居
    厕所英雄
    第七个小矮人
    动物世界
    超人总动员2
    金蝉脱壳2
    吃货宇宙
    龙虾刑警
    幸福马上来
    深海越狱
    爱情公寓
    寂静之地
    恐怖浴室
    泡菜爱上小龙虾
    完美陌生人
    快乐星球之三十六号
    血十三
    后来的我们
    阿飞正传
    爵迹2
    新乌龙院之笑闹江湖
    狄仁杰之四大天王
    监狱犬计划
    魔镜奇缘2
    邪不压正
    生存家族
    阿修罗
    昨日青空
    一纸婚约
    巨齿鲨
    凤凰城遗忘录
    毛骨悚然之红衣男孩
    西虹市首富
    伊阿索密码
    我不是药神
    让我怎么相信你
    时间监狱
    的士速递5
    因果启示录
    大轰炸
    一出好戏
    侏罗纪世界3
    昼颜
    风语咒
    侏罗纪世界
    快把我哥带走
    反贪风暴3
    疯狂这一年
    复仇者联盟4
    墨多多谜境冒险
    狂暴巨兽
    给19岁的我自己
    新哥斯拉
    精灵王座
    家
    姽婳
    最后一球
    摩天营救
    致命夺宝
    镰仓物语
    红海行动
    我的宠物恐龙
    午夜幽灵
    路过未来
    烛仙
    细思极恐
    封门笔仙
    摸金校尉之九幽将军
    唐人街探案2
    凤皇传
    神奇马戏团
    金蝉脱壳
    头号玩家
    小偷家族
    小悟空
    只能活一个
    阴阳师
    阿凡达2
    青年马克思
    如影随心
    青春不留白
    战狼2
    死侍2
    出走的娜拉
    武林怪兽
    恋爱101度
    捉妖记2
    一个人的江湖
    云南虫谷
    巴啦啦小魔仙
    地下凶猛
    白雪公主之神秘爸爸
    马兰花开
    天佑之爱
    银河护卫队3
    冰海陷落
    泰迪熊之玩具大战
    欧洲攻略
    美食大冒险之英雄烩
    影
    神探蒲松龄之兰若仙踪
    衣柜里的冒险王
    无双
    惊奇队长
    神秘世界历险记4
    大闹东海
    流浪地球
    寻梦环游记
    暗夜良人
    嘻哈英熊
    新大头儿子和小头爸爸2一日成才
    护垫侠
    疯狂的外星人
    盯上小偷的贼
    疯狂侏罗纪
    西小河的夏天
    羞羞的铁拳
    宝贝老板
    大脚印
    黑豹
    幕后玩家
    速度与激情8
    胖子行动队
    银河护卫队
    邹碧华
    起跑线
    他是一只狗
    画框里的女人
    光影之战
    暮光巴黎
    玛雅蜜蜂历险记
    一生有你
    古剑奇谭之流月昭明
    阳台上
    荒城纪
    淘气大侦探
    心灵救赎
    我爱灰太狼
    爱猫之城
    小萝莉的猴神大叔
    侏罗纪公园
    大耳朵图图之美食狂想曲
    赛尔号大电影之寻找凤凰神兽
    命运速递
    西游记女儿国
    神秘巨星
    双生
    无问西东
    芳华
    真相漩涡
    美国行动
    

      

    三样东西有助于缓解生命的疲劳:希望、睡眠和微笑。---康德
  • 相关阅读:
    java获取指定月份有几个星期x,获取指定月份跨了多少个星期
    linux下vim编辑器使用
    bash Shell条件测试
    grep与正则表达式
    网络基础--NAT
    网络基础-DHCP
    Python--元组(tuple)
    Python--元组(tuple)
    Linux--用户管理
    Linux--用户管理
  • 原文地址:https://www.cnblogs.com/ronghe/p/9197854.html
Copyright © 2020-2023  润新知