• python爬虫08 | 你的第二个爬虫,要过年了,爬取豆瓣最受欢迎的250部电影慢慢看


    马上就要过年啦

     

     

     

     

     

     

    过年在家干啥咧

     

    准备好被七大姑八大姨轮番「轰炸」了没?

     

     

     

     

     

    你的内心 os 是这样的

     

     

    但实际上你是这样的

     

     

    应付完之后

     

    闲暇时刻不妨看看电影

     

    接下来咱们就来爬取豆瓣上评分最高的

     

    250部电影

     

    这次我们就要来使用上次说的

     

     BeautifulSoup Reuqests

     

    进行爬取啦

     

    这次

     

    我们将爬取到的内容存放到 excel 吧

     

     

    那么

     

    接下来就是

     

     

    学习 python 的正确姿势

     

     

     

    我们还是老样子

     

    先摸清对方的底

     

    知己知彼

     

    百战不殆

     

    首先打开我们的目标链接

     

    https://movie.douban.com/top250

     

    可以看到这样一个网页

     

     

     

    每一页显示了 25 条数据

     

    当我们点击下一页的时候

     

    链接请求参数变了

     

    https://movie.douban.com/top250?start=25&filter=

     

    我们一眼就看的出来

     

    这里就是从第 25 条数据开始加载的

     

    所以

     

    我们可以使用这个 start=25 来做变量

     

    实现翻页获取信息

     

    接下来我们来看下我们要的主要信息

     

    电影名称

    电影图片

    电影排名

    电影评分

    电影作者

    电影简介

     

     

     

     

    等会我们可以使用 BeautifulSoup 超简单获取

     

    一顿分析之后

     

    我们就开始撸代码啦

     

     

    主要思路

     

    请求豆瓣的链接获取网页源代码

     

    然后使用 BeatifulSoup 拿到我们要的内容

     

    最后就把数据存储到 excel 文件中

     

    def main(page):
       url = 'https://movie.douban.com/top250?start='+ str(page*25)+'&filter='
       html = request_douban(url)
       soup = BeautifulSoup(html, 'lxml')
       save_to_excel(soup)

     

    请求豆瓣电影

     

    def request_douban(url):
       try:
           response = requests.get(url)
           if response.status_code == 200:
               return response.text
       except requests.RequestException:
           return None

     

    获取到的主要源代码

     

    ...

    <ol class="grid_view">
           <li>
               <div class="item">
                   <div class="pic">
                       <em class="">1</em>
                       <a href="https://movie.douban.com/subject/1292052/">
                           <img width="100" alt="肖申克的救赎" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg" class="">
                       </a>
                   </div>
                   <div class="info">
                       <div class="hd">
                           <a href="https://movie.douban.com/subject/1292052/" class="">
                               <span class="title">肖申克的救赎</span>
                                       <span class="title">&nbsp;/&nbsp;The Shawshank Redemption</span>
                                   <span class="other">&nbsp;/&nbsp;月黑高飞(港)  /  刺激1995(台)</span>
                           </a>


                               <span class="playable">[可播放]</span>
                       </div>
                       <div class="bd">
                           <p class="">
                               导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins /...<br>
                               1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情
                           </p>

                           
                           <div class="star">
                                   <span class="rating5-t"></span>
                                   <span class="rating_num" property="v:average">9.6</span>
                                   <span property="v:best" content="10.0"></span>
                                   <span>1286755人评价</span>
                           </div>

                               <p class="quote">
                                   <span class="inq">希望让人自由。</span>
                               </p>
                       </div>
                   </div>
               </div>
           </li>

    ...

    BeatifulSoup 解析

     

    list = soup.find(class_='grid_view').find_all('li')

       for item in list:
           item_name = item.find(class_='title').string
           item_img = item.find('a').find('img').get('src')
           item_index = item.find(class_='').string
           item_score = item.find(class_='rating_num').string
           item_author = item.find('p').text
           item_intr = item.find(class_='inq').string

           # print('爬取电影:' + item_index + ' | ' + item_name +' | ' + item_img +' | ' + item_score +' | ' + item_author +' | ' + item_intr )
           print('爬取电影:' + item_index + ' | ' + item_name  +' | ' + item_score  +' | ' + item_intr )

     

    打印一下

     

    爬取电影:1 | 肖申克的救赎 | 9.6 | 希望让人自由。
    爬取电影:2 |
    霸王别姬 | 9.6 | 风华绝代。
    爬取电影:3 | 这个杀手不太冷 | 9.4 | 怪蜀黍和小萝莉不得不说的故事。
    爬取电影:4 |
    阿甘正传 | 9.4 | 一部美国近现代史。
    爬取电影:5 | 美丽人生 | 9.5 | 最美的谎言。
    爬取电影:6 |
    泰坦尼克号 | 9.3 | 失去的才是永恒的。
    爬取电影:7 | 千与千寻 | 9.3 | 最好的宫崎骏,最好的久石让。
    爬取电影:8 |
    辛德勒的名单 | 9.5 | 拯救一个人,就是拯救整个世界。
    爬取电影:9 | 盗梦空间 | 9.3 | 诺兰给了我们一场无法盗取的梦。
    爬取电影:10 |
    机器人总动员 | 9.3 | 小瓦力,大人生。
    爬取电影:11 | 忠犬八公的故事 | 9.3 | 永远都不能忘记你所爱的人。
    ...
    爬取电影:21 |
    无间道 | 9.1 | 香港电影史上永不过时的杰作。
    爬取电影:22 | 当幸福来敲门 | 9.0 | 平民励志片。
    爬取电影:23 |
    疯狂动物城 | 9.2 | 迪士尼给我们营造的乌托邦就是这样,永远善良勇敢,永远出乎意料。
    爬取电影:24 | 触不可及 | 9.2 | 满满温情的高雅喜剧。
    爬取电影:25 |
    怦然心动 | 9.0 | 真正的幸福是来自内心深处。

     

    拿到数据啦

     

     

    循环获取 10 页的所有数据

     

    来个循环吧

     

    for i in range(0, 10):
           main(i)

     

     

    获取到数据当然是要存储了

     

    导入 excel 的库 

     

    import xlwt

     

    创建一个 excel 的 sheet

     

    每一列就是我们要的关键内容

     

    book=xlwt.Workbook(encoding='utf-8',style_compression=0)

    sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
    sheet.write(0,0,'名称')
    sheet.write(0,1,'图片')
    sheet.write(0,2,'排名')
    sheet.write(0,3,'评分')
    sheet.write(0,4,'作者')
    sheet.write(0,5,'简介')

     

    将爬取到的所有数据写入 excel

     

    sheet.write(n, 0, item_name)
           sheet.write(n, 1, item_img)
           sheet.write(n, 2, item_index)
           sheet.write(n, 3, item_score)
           sheet.write(n, 4, item_author)
           sheet.write(n, 5, item_intr)

     

    最后来个保存

     

    book.save(u'豆瓣最受欢迎的250部电影.xlsx')

     

     

     

     

    运行一下吧

     

     

    生成了一个 excel 文件

     

     

     

     

     

    老规矩

     

    小帅b把本篇涉及到的源代码放在后台了

     

    公众号发送「250」获取

     

     

    再见

     

    近期文章

     

    python爬虫07 | 有了 BeautifulSoup ,妈妈再也不用担心我的正则表达式了

     

    python爬虫06 | 你的第一个爬虫,爬取当当网 Top 500 本五星好评书籍

     

    python爬虫05 | 年轻人,不会正则表达式你睡得着觉?有点出息没有?

     

     

     

    扫一扫

    学习 Python 没烦恼

     

     

     

    好看的人都点了

  • 相关阅读:
    cv2 Qt Platform plugin "cocoa" not found error
    开发scrapy web界面(一)
    java2smali python 粘合脚本
    react如何设置代理
    Nginx启动不了失败原因
    前端,后端,服务器如何部署,转载
    匿名函数普通函数和构造函数
    闭包的认识
    各种命名规范,打好基础才能建设高楼
    mongoose常用操作
  • 原文地址:https://www.cnblogs.com/fxxkpython/p/10832038.html
Copyright © 2020-2023  润新知