使用urllib方式爬取豆瓣电影Top250

从B站学习了一段时间，使用urllib方式爬取豆瓣电影Top250保存到excel

话不多说贴上代码，亲测可用补充保存到爬取数据到数据库中

# -*- coding: utf-8 -*-
# @Time : 2021/7/17 21:49
# @Author :liuw
# @File : get_douban.py
# @Software: PyCharm
import re
import sqlite3
import urllib.request

import xlwt
from bs4 import BeautifulSoup
#   <a href="https://movie.douban.com/subject/1292052/"> 超链接查找对应的规律

# 以下信息自己去单个电影信息item.html里查找
findlMovielink = re.compile(r'<a href="(.*?)">') #生成和创建正则表达式对象，表示规则（电影超链接）
# <img alt="肖申克的救赎" class="" src="https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg" width="100"/>
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S) #使换行符也包含在字符串中
#影片名称
findTitle = re.compile(r'<span class="title">(.*)</span>')
# 影片评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
# 影片评分人数
findJudge = re.compile(r'<span>(d*)人评价</span>')
# 找到概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
# 找到影片相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S) #? 代表0到1次

def getData(baseUrl):
    dataList = []

    for i in range(0,10): # 调用页面获取信息的函数，10次 1页25条
        url = baseUrl + str(i*25)
        html = askURL(url) # 保存获取到的网页源码
        #  逐一解析数据
        soup = BeautifulSoup(html,"html.parser")
        # 查找符合要求的字符串 形成列表
        for item in soup.find_all('div',class_="item"):
            # print(item) #测试 查看电影item信息
            # break
            data = [] # 保存一部电影的信息
            item = str(item)  #使用正则对str进行匹配 涉及到re库
            link = re.findall(findlMovielink, item)[0] # re库用来通过正则表达式来查找指定的字符串
            # print(link)# 获取到影片详情的超链接
            data.append(link)
            imgSrc = re.findall(findImgSrc,item)[0]
            data.append(imgSrc)
            titles = re.findall(findTitle,item)
            # 有些电影名有中文和英文名
            if len(titles) == 2:
                ctitle = titles[0]
                data.append(ctitle)
                otitle  = titles[1].replace("/","")# 替换无关的符号

                data.append(otitle) #添加外国名称
            else:
                data.append(titles[0])
                data.append(' ')  #有些外文名没有 留空
            rating = re.findall(findRating,item)[0]
            data.append(rating)
            judgeNum = re.findall(findJudge,item)[0]
            data.append(judgeNum) #添加评价人数
            inq = re.findall(findInq,item)
            if len(inq) != 0:
                inq = inq[0].replace(".","")
                data.append(inq)  #添加影片概述 有些影片没有概述
            else:
                data.append(" ") #留空
            bd = re.findall(findBd,item)[0]
            bd = re.sub('<br(s+)?/>(s+)?'," ",bd)#去掉br
            bd = re.sub('/'," ",bd) #替换/
            bd = re.sub('&nbsp;',"",bd)
            data.append(bd.strip()) #去掉前后空格
            dataList.append(data)  #处理好一部电影信息放入datalist
    # print(dataList)
    return dataList


def askURL(url):
    head = {# 模拟浏览器头部信息 向豆瓣服务器发送消息 伪装→ 披着羊皮的狼
        "User-Agent":"Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 91.0 .4472 .124  Safari / 537.36"
    }
    # 用户代理 表示告诉豆瓣服务器 我们是什么类型的机器 浏览器（本质上告诉浏览器我们可以接收什么水平的文件内容)
    request = urllib.request.Request(url,headers=head)
    html = ""
    #可能会产生一些异常
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode('utf=8')# 重新解码下
        # print(html)
    except urllib.error.URLError as e: #可能遇到浏览器内部一些错误 如500
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)# 看里面的reason到底什么原因导致没有捕获成功
    return html


def saveData(datalist,savePath):
    workbook = xlwt.Workbook(encoding='utf-8',style_compression=0)
    worksheet = workbook.add_sheet("豆瓣电影Top250",cell_overwrite_ok=True)  # 创建工作表
    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
    for i in range(0,8):
        worksheet.write(0,i,col[i])
    for i in range(0,250):
        print("%d条" %(i+1))
        data = datalist[i]
        for j in range(0,8):
            worksheet.write(i+1,j,data[j])
    workbook.save(savePath)

    pass

def main():
    baseUrl="https://movie.douban.com/top250?start="
    #1.爬取网页
    askURL("https://movie.douban.com/top250?start=0")

    #2.解析数据
    datalist=getData(baseUrl)
    # savepath=".\豆瓣电影Top250.xls"
    # #3.保存数据到excel
    # saveData(datalist,savepath)
    dbpath = "movie.db"
    saveData2DB(datalist,dbpath)


def saveData2DB(datalist,dbpath):
    # init_db(dbpath)  # 创建数据表
    con = sqlite3.connect(dbpath)  # 连接数据库
    cur = con.cursor()  # 获取游标
    for data in datalist:  # 对每行数据进行操作
        for index in range(len(data)):  # index是每行数据的下标
            data[index] = (""" + data[index] + """)  # 对每个数据添加前后的双引号，是转义字符
        sql = 'INSERT INTO movie250(info_link, pic_link, cname, ename, score, rated, instroduction, info) VALUES (% s) ' % ",".join(data) #拼接建表语句，连接data列表中的每一项，使用逗号分隔
        cur.execute(sql)  # 执行SQL语句：创建数据表
        con.commit()  # 事务提交：让操作生效
    cur.close()  # 关闭游标
    con.close()  # 关闭连接


def init_db(dbpath):
    sql = '''
    create table movie250
    (id integer primary key autoincrement,
    info_link text,
    pic_link text,
    cname varchar,
    ename varchar,
    score numeric,
    rated numeric,
    instroduction text,
    info text
    )
    '''
    conn = sqlite3.connect(dbpath)
    cursor = conn.cursor()
    cursor.execute(sql)
    conn.commit()
    conn.close()


if __name__ == "__main__":
    main()
    # init_db("movietest.db")

我希望有个如你一般的人，如山间清爽的风，如古城温暖的光，只要最后是你就好。今天，你路过了谁？谁又丢失了你呢？

相关阅读:
黑鲨2无限重启把竞技按钮调到最上
 绿联电池
 阿里云
 Centos 8 搭建时钟服务器
 CentOS8系统时间同步解决方法
 解决问题的人干活快的人
 【海通国际】Joe Lowry（Mr. Lithium）谈全球电池原材料供应危机
 Linux 实验楼
 用 set follow-fork-mode child即可。这是一个 gdb 命令，其目的是告诉 gdb 在目标应用调用fork之后接着调试子进程而不是父进程，因为在 Linux 中fork系统调用成功会返回两次，一次在父进程，一次在子进程
 【随笔】阿里云修改DNS
原文地址：https://www.cnblogs.com/smartwen666/p/15055700.html