• pythohn3.7 爬虫豆瓣电影排行榜


    #-*-coding:utf-8-*-
    from  urllib import request,parse
    import requests
    import importlib,sys,re
    importlib.reload(sys)
    import os
    import pdb
    # sys.setdefaultencoding('utf8')

    file_name=(r'E:YSpracticemovie'+os.sep+'豆瓣电影排行250'+'.txt')
    number=1
    with open(file_name,"w",encoding='utf-8') as f:
            # f.writelines(content)
        for i in range(10):
            print('正在爬去第%d页'%(i+1))
            url='https://movie.douban.com/top250?'
            a=i
            # I=str(i)
            data={  'start':a
                }
            string=parse.urlencode(data)
            url+=string+'&filter='
            header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'}
            request_data=request.Request(url=url,headers=header)
            # pdb.set_trace()
            response=request.urlopen(request_data)
            # pdb.set_trace()
            content=response.read().decode('utf-8')
            pattern = r'<span class="title">.*?</span>'
            m=re.findall(pattern,content)
            print (m)
            if m!=None:
                for item in m:
                    if '&nbsp' not in  item:
                        f.writelines(u'第%d名'%number+'-------'+item.split(">")[1].split("<")[0]+' ')
                        number+=1
                
            print('第%d页爬出成功'%(i+1))
  • 相关阅读:
    《2048》开发5——实现计分功能
    《2048》开发4——继续编辑GameView类,实现游戏逻辑
    《2048》开发3——编辑Card类
    robotframework(rf)中对时间操作的datetime库常用关键字
    弹框和单选框,复选框
    Selenium IDE安装与使用
    全面的功能测试点总结
    RF新手常见问题总结--(基础篇)
    常用断言关键字(rf中)
    jmeter录制(ios)app脚本
  • 原文地址:https://www.cnblogs.com/xiaoxiaoshuaishuai0219/p/11691118.html
Copyright © 2020-2023  润新知