从B站学习了一段时间,使用urllib方式爬取豆瓣电影Top250保存到excel
话不多说贴上代码,亲测可用 补充保存到爬取数据到数据库中
# -*- coding: utf-8 -*-
# @Time : 2021/7/17 21:49
# @Author :liuw
# @File : get_douban.py
# @Software: PyCharm
import re
import sqlite3
import urllib.request
import xlwt
from bs4 import BeautifulSoup
# <a href="https://movie.douban.com/subject/1292052/"> 超链接查找对应的规律
# 以下信息自己去单个电影信息item.html里查找
findlMovielink = re.compile(r'<a href="(.*?)">') #生成和创建正则表达式对象,表示规则(电影超链接)
# <img alt="肖申克的救赎" class="" src="https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg" width="100"/>
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S) #使换行符也包含在字符串中
#影片名称
findTitle = re.compile(r'<span class="title">(.*)</span>')
# 影片评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
# 影片评分人数
findJudge = re.compile(r'<span>(d*)人评价</span>')
# 找到概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
# 找到影片相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S) #? 代表0到1次
def getData(baseUrl):
dataList = []
for i in range(0,10): # 调用页面获取信息的函数,10次 1页25条
url = baseUrl + str(i*25)
html = askURL(url) # 保存获取到的网页源码
# 逐一解析数据
soup = BeautifulSoup(html,"html.parser")
# 查找符合要求的字符串 形成列表
for item in soup.find_all('div',class_="item"):
# print(item) #测试 查看电影item信息
# break
data = [] # 保存一部电影的信息
item = str(item) #使用正则对str进行匹配 涉及到re库
link = re.findall(findlMovielink, item)[0] # re库用来通过正则表达式来查找指定的字符串
# print(link)# 获取到影片详情的超链接
data.append(link)
imgSrc = re.findall(findImgSrc,item)[0]
data.append(imgSrc)
titles = re.findall(findTitle,item)
# 有些电影名有中文和英文名
if len(titles) == 2:
ctitle = titles[0]
data.append(ctitle)
otitle = titles[1].replace("/","")# 替换无关的符号
data.append(otitle) #添加外国名称
else:
data.append(titles[0])
data.append(' ') #有些外文名没有 留空
rating = re.findall(findRating,item)[0]
data.append(rating)
judgeNum = re.findall(findJudge,item)[0]
data.append(judgeNum) #添加评价人数
inq = re.findall(findInq,item)
if len(inq) != 0:
inq = inq[0].replace(".","")
data.append(inq) #添加影片概述 有些影片没有概述
else:
data.append(" ") #留空
bd = re.findall(findBd,item)[0]
bd = re.sub('<br(s+)?/>(s+)?'," ",bd)#去掉br
bd = re.sub('/'," ",bd) #替换/
bd = re.sub(' ',"",bd)
data.append(bd.strip()) #去掉前后空格
dataList.append(data) #处理好一部电影信息放入datalist
# print(dataList)
return dataList
def askURL(url):
head = {# 模拟浏览器头部信息 向豆瓣服务器发送消息 伪装→ 披着羊皮的狼
"User-Agent":"Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 91.0 .4472 .124 Safari / 537.36"
}
# 用户代理 表示告诉豆瓣服务器 我们是什么类型的机器 浏览器(本质上告诉浏览器我们可以接收什么水平的文件内容)
request = urllib.request.Request(url,headers=head)
html = ""
#可能会产生一些异常
try:
response = urllib.request.urlopen(request)
html = response.read().decode('utf=8')# 重新解码下
# print(html)
except urllib.error.URLError as e: #可能遇到浏览器内部一些错误 如500
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)# 看里面的reason到底什么原因导致没有捕获成功
return html
def saveData(datalist,savePath):
workbook = xlwt.Workbook(encoding='utf-8',style_compression=0)
worksheet = workbook.add_sheet("豆瓣电影Top250",cell_overwrite_ok=True) # 创建工作表
col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
for i in range(0,8):
worksheet.write(0,i,col[i])
for i in range(0,250):
print("%d条" %(i+1))
data = datalist[i]
for j in range(0,8):
worksheet.write(i+1,j,data[j])
workbook.save(savePath)
pass
def main():
baseUrl="https://movie.douban.com/top250?start="
#1.爬取网页
askURL("https://movie.douban.com/top250?start=0")
#2.解析数据
datalist=getData(baseUrl)
# savepath=".\豆瓣电影Top250.xls"
# #3.保存数据到excel
# saveData(datalist,savepath)
dbpath = "movie.db"
saveData2DB(datalist,dbpath)
def saveData2DB(datalist,dbpath):
# init_db(dbpath) # 创建数据表
con = sqlite3.connect(dbpath) # 连接数据库
cur = con.cursor() # 获取游标
for data in datalist: # 对每行数据进行操作
for index in range(len(data)): # index是每行数据的下标
data[index] = (""" + data[index] + """) # 对每个数据添加前后的双引号,是转义字符
sql = 'INSERT INTO movie250(info_link, pic_link, cname, ename, score, rated, instroduction, info) VALUES (% s) ' % ",".join(data) #拼接建表语句,连接data列表中的每一项,使用逗号分隔
cur.execute(sql) # 执行SQL语句:创建数据表
con.commit() # 事务提交:让操作生效
cur.close() # 关闭游标
con.close() # 关闭连接
def init_db(dbpath):
sql = '''
create table movie250
(id integer primary key autoincrement,
info_link text,
pic_link text,
cname varchar,
ename varchar,
score numeric,
rated numeric,
instroduction text,
info text
)
'''
conn = sqlite3.connect(dbpath)
cursor = conn.cursor()
cursor.execute(sql)
conn.commit()
conn.close()
if __name__ == "__main__":
main()
# init_db("movietest.db")