pythohn3.7 爬虫豆瓣电影排行榜

pythohn3.7 爬虫豆瓣电影排行榜

#-*-coding:utf-8-*-

from  urllib import request,parse

import requests

import importlib,sys,re

importlib.reload(sys)

import os

import pdb

# sys.setdefaultencoding('utf8')

file_name=(r'E:YSpracticemovie'+os.sep+'豆瓣电影排行250'+'.txt')

number=1

with open(file_name,"w",encoding='utf-8') as f:

        # f.writelines(content)

    for i in range(10):

        print('正在爬去第%d页'%(i+1))

        url='https://movie.douban.com/top250?'

        a=i

        # I=str(i)

        data={  'start':a

            }

        string=parse.urlencode(data)

        url+=string+'&filter='

        header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'}

        request_data=request.Request(url=url,headers=header)

        # pdb.set_trace()

        response=request.urlopen(request_data)

        # pdb.set_trace()

        content=response.read().decode('utf-8')

        pattern = r'<span class="title">.*?</span>'

        m=re.findall(pattern,content)

        print (m)

        if m!=None:

            for item in m:

                if '&nbsp' not in  item:

                    f.writelines(u'第%d名'%number+'-------'+item.split(">")[1].split("<")[0]+' ')

                    number+=1



        print('第%d页爬出成功'%(i+1))
相关阅读:
《2048》开发5——实现计分功能
 《2048》开发4——继续编辑GameView类，实现游戏逻辑
 《2048》开发3——编辑Card类
 robotframework(rf)中对时间操作的datetime库常用关键字
 弹框和单选框，复选框
 Selenium IDE安装与使用
 全面的功能测试点总结
 RF新手常见问题总结--(基础篇)
常用断言关键字（rf中）
jmeter录制(ios)app脚本
原文地址：https://www.cnblogs.com/xiaoxiaoshuaishuai0219/p/11691118.html