• BiLiBiLi爬虫


    • BiLiBiLi
    • Time: 2020年11月6日19:44:58
    • Author: Yblackd

    @


    BiLiBiLi

    介绍

    b站视频详情数据抓取,自动打包并发送到指定邮箱(单个或者群发)

    软件架构

    • 定时任务:采用win自带或者time.sleep()
    • 采用python自动化测试(selenium),获取b站动态生成源码,
    • 采用selenium 和 bs4 对page_source进行规则匹配清洗。
    • 清洗完数据写入json和Excel文件(有json数据转换Excel函数)--按照日期保存;
    • 按日期将文件夹压缩zip
    • 将压缩后的zip发送给指定的 邮箱或者邮箱群组

    安装教程

    1. 更新浏览器版本(Chrome, Firefox, Edge等,方便找对应的webDriver); 自行百度(浏览器名 webdriver),第一个推介点进去搜索对应的 浏览器版本下载(相同最后,没有尽量选择相近)
    2. 安装python,和pip
    3. pip install -r requirments.txt,安装依赖,如果安装失败,就手敲吧,一般问题不大
    4. 按照使用说明更改必要参数

    使用说明

    1. run.py:

      • 修改up_user_name = "立体设计师峥嵘" # up主名: 更改你自己要抓取的up主名称

      • 发送邮件参数

        mail_cfg = {
            # 邮箱登录设置,使用SMTP登录
            'server_username': "xxx@qq.com",  # '你的邮箱'
            'server_pwd': "xxxxx",  # QQ和163邮箱需要:'16位随机码', QQ企业邮箱你的登录密码
        
            # 邮件内容设置
            'msg_to': ['xxx@qq.com', 'xxx@163.com'],  # 可以在此添加收件人单个,多个群发
            'msg_subject': u'日期:' + num_ct,
            'msg_date': email.utils.formatdate(),
            'msg_content': u"正文: BiLiBiLi视屏详情抓取--数据文件, 抓取时间:" + timestr,
        
            # 附件
            'attach_file': target
        }
    2. 如果只是修改上面说明参数,运行应该问题不大,关键就是webdriver的配置:下载好后不用添加环境变量,只要记录对应位置,代码里面声明就好;邮箱发送功能记得开启SMTP/POP

    3. 如果还是有问题,留言评论好了

    源码下载

    下载链接:

  • 相关阅读:
    事务
    handler
    codeforces 27E Number With The Given Amount Of Divisors
    暑期实践日志(五)
    暑期实践日志(四)
    暑期实践日志(三)
    暑期实践日志(二)
    暑期实践日志(一)
    数论 UVALive 2756
    数论 UVALive 2911
  • 原文地址:https://www.cnblogs.com/yblackd/p/14533358.html
Copyright © 2020-2023  润新知