• 爬虫学习笔记


    1.爬虫核心:

    爬去网页
    解析数据

    难点:爬虫与反爬虫的博弈

    2.爬虫分类:

    通用爬虫:
        实例:谷歌,百度,搜狗
      功能:访问网页-抓取数据-数据存储-数据处理-提供检索服务
      抓取过程
        给定一些起始URL,放入待爬取队列
        从队列中获取url对象,开始爬取数据
        分析网页,获取网页内所有的URL,入队,继续重复第二步
      搜索引擎如何获取新网站链接
        主动给搜索引擎提交URL
        在其他站点设置友情链接
        百度和DNS服务商合作,只要有域名,就会收录新网站
      robots协议:
        约定的协议,添加robots.txt 说明哪些不被爬取
        自己写的爬虫无需遵守
      网站排名:
        根据pagerank值进行排名(参考网站流量,点击率等指标)
        百度竞价排名
      缺点:
        爬取太多无用数据
        不能根据用户需求来精准获取数据

    聚焦爬虫:
       功能:根据需求,实现爬虫程序抓取需要的数据
        原理:
        网页都有唯一的URL
        网页都是HTML组成
        传输协议都是HTTP/HTTPS
       设计思路:
        获取URL——确定要爬取的URL
        如何访问——模拟浏览器通过HTTP协议访问URL,获取服务器返回的Html代码
        如何解析——解析HTML字符串(根据一定规则提取需要的数据)

    3.整体内容

      python 语法

        使用python库
        urllib.request
        urllib.parse
        requests
        scrapy
       解析内容:
        正则表达式
        xpath
        bs4
        jsonpath
      采集动态html
      scrapy:高性能异步爬虫框架
      分布式爬虫:scrapy——redis组件

      反爬虫的一般手段:
        User—Agent
        代理ip
        验证码访问
        动态加载网页
        数据加密
     爬虫-反爬虫-反反爬虫

    看视频整理老师所讲!

  • 相关阅读:
    单例模式
    dubbo环境搭建
    树莓派Zero W无键盘无屏幕初始化
    Arduino连接MPU6050陀螺仪
    Raspberry Pi3驱动Oled ssh1106屏
    SonarQube 7.7默认数据库连接方法
    解决SonarQube启动时直接挂掉问题
    解决sonar的ES无法启动问题
    Jenkins自动打包并部署(以java -jar形势运行)
    python3中OpenCV imwrite保存中文路径文件
  • 原文地址:https://www.cnblogs.com/qiaosipo/p/12519192.html
Copyright © 2020-2023  润新知