• 爬虫工程师就业技能及大纲


    前言

      去年我在北风网花了两万大洋报的人工智能培训班(6个月),老师讲的没毛病,怪只怪自己最后一个月没好好学,加上疫情影响,学历比较低,就业比较难。我彻底放弃了人工智能。回首看来,准备入手爬虫这个对学历没什么要求的工作,此篇随便为大纲及概述,后续会更新详细内容及案例内容。

      大纲以及后续更新的内容来自本人从B站博主 路飞学城  发布的课程学来的知识加以自己的理解,案例内容为自己提的各方面需求。

    职业规划  

      以稳固的web端爬虫入手,逐步渗透app端爬虫,当全部成熟后,攻坚数据可视化和数据分析。完成一套技术流程,提升自身价值。

    大纲 

      python基础语法

       requests模块,session请求(请求时携带动态变化的cookie)

       xpath解析(推荐),bs4解析,正则表达式

      selenium模块、动作链、iframe标签的注意

      selenium操控的无头浏览器及规避对selenium的检测

       验证码的处理:云打码平台(普通验证码,数字字母之类)

              超级鹰(更难得验证码,比如给出文字“老虎”,验证码要求点击图中所有老虎)

              OCR技术(使用tesserocr库,可以识别难度低的,比如下图,一般使用此方法时需要处理处理图片,比如灰度化,二值化)

              

              机器学习训练模型分析出验证码

              卷积神经网络训练模型分析出验证码(比机器学习准确度更高)

              selenium解决滑动式验证码,具体方法是比较验证码图片缺失位置像素差值,然后获取位置啊大小啊之类,截图,加速,减速等行为。

              暴力枚举解决宫格式验证码(比如各个手机银行进入时的宫格手势密码)

      代理ip池的维护

      多线程/多进程 异步爬虫

      协程爬虫

      scrapy框架

      分布式爬虫(基于scrapy-redis)

      增量式爬虫(利用redis数据库的set去重)

      数据库:

          Mysql

          Mongodb

          Redis

      JS逆向破解参数加密

      JS混淆

      app端的爬虫(尚未学习)

    案例

      全本小说网玄幻魔法人气排行下载

      百度图片的李连杰图片前10页

      qq音乐热门歌曲前两页下载

      美团的浦东商家详情页信息

      58同城的简历自动投递

      安居客房源信息的采集

      淘宝iphone11手机价格的采集及实时更新

      boss直聘中上海互联网行业各职位薪资待遇和职位要求

      雪球网沪深股市沪深一览增量式爬取(内容在变化)

      神州租车价格和数量 增量式爬取

      信托类网站项目类型和规模的爬取

      格力空调官网 格力发布 新闻的爬取

      中国空气质量在线监测平台的爬取(涉及JS加密)https://www.aqistudy.cn

      衡水市人民政府公示公告的爬取

        

  • 相关阅读:
    肩部肌肉劳损zt
    大屏幕手机上网页字体显示很小的问题
    SWT的Display
    The connection to adb is down, and a severe error has occured.
    [ZT]使用tmpfs缓存文件提高性能
    Mutex
    javascript阻塞加载问题【转】
    IE参考
    2台电脑网线对接注意的事项
    重建索引
  • 原文地址:https://www.cnblogs.com/qianchaomoon/p/13782936.html
Copyright © 2020-2023  润新知