• crawler 听课笔记 碎碎念 2 一些爬虫须知的基本常识和流程


    html的宗旨:      <标签 属性=”属性的值“></标签>        只是对于文本的一种解释划分吧

    dom的宗旨:      就是一个大数组,处理方便,效率低

    xml                      <node attr=value>...</node>          html是它的子集,树结构    主要注意节点关系

    json                      类似xml,对JavaScript友好

    mysql                  show database显示当前服务i上数据库

            create database dbname创建一个新数据库

            use dbname使用指定的数据库

            show tables显示当前数据库的所有表

             desc tbname 显示表数据

    爬虫工作流程

    种子url放入队列  获取url抓取内容  解析内容,需要进一步抓取的放入工作队列  存储解析后的内容

    抓取策略

    广度优先  深度优先  pagerank(给自己的网页打分)  大站优先策略 

    去重

    Hash表  bloom过滤器(把一个网页的哈希值转换为01结构,然后和过滤器做与或操作,有的话一定重复了,没有的话就可能报错,可以再做一次操作)

    爬虫质量

    质量 性能 分布式 可扩展性 更新 新鲜性 可收缩性 有效性

    更多

    map/reduce  布隆过滤器

    爬虫规范与原则 robots协议

      

  • 相关阅读:
    web-----------HTTP协议
    python基础作业------模拟实现一个ATM + 购物商城程序
    python--------进程与线程
    作业--用户输入数字0-100,判断成绩,用函数
    blog真正的首页
    blog首页视图
    让django完成翻译,迁移数据库模型
    创建Django博客的数据库模型
    创建blog APP
    在PyCharm上创建Django项目
  • 原文地址:https://www.cnblogs.com/xingnie/p/9688903.html
Copyright © 2020-2023  润新知