crawler 听课笔记碎碎念 2 一些爬虫须知的基本常识和流程

crawler 听课笔记碎碎念 2 一些爬虫须知的基本常识和流程

html的宗旨： <标签属性=”属性的值“></标签> 只是对于文本的一种解释划分吧

dom的宗旨：就是一个大数组，处理方便，效率低

xml <node attr=value>...</node> html是它的子集，树结构主要注意节点关系

json 类似xml,对JavaScript友好

mysql show database显示当前服务i上数据库

　　　　　　　　create database dbname创建一个新数据库

　　　　　　　　use dbname使用指定的数据库

　　　　　　　　show tables显示当前数据库的所有表

　　　　　　　　desc tbname 显示表数据

爬虫工作流程

种子url放入队列　　获取url抓取内容　　解析内容，需要进一步抓取的放入工作队列　　存储解析后的内容

抓取策略

广度优先　　深度优先　　pagerank（给自己的网页打分）　　大站优先策略

去重

Hash表　　bloom过滤器（把一个网页的哈希值转换为01结构，然后和过滤器做与或操作，有的话一定重复了，没有的话就可能报错，可以再做一次操作）

爬虫质量

质量性能分布式可扩展性更新新鲜性可收缩性有效性

更多

map/reduce 布隆过滤器

爬虫规范与原则 robots协议
相关阅读:
web-----------HTTP协议
 python基础作业------模拟实现一个ATM + 购物商城程序
 python--------进程与线程
 作业--用户输入数字0-100，判断成绩，用函数
 blog真正的首页
 blog首页视图
 让django完成翻译，迁移数据库模型
 创建Django博客的数据库模型
 创建blog APP
在PyCharm上创建Django项目
原文地址：https://www.cnblogs.com/xingnie/p/9688903.html

crawler 听课笔记 碎碎念 2 一些爬虫须知的基本常识和流程

crawler 听课笔记碎碎念 2 一些爬虫须知的基本常识和流程