Web Scraping with Python读书笔记及思考 - 润新知

Web Scraping with Python读书笔记及思考
Web Scraping with Python读书笔记

标签（空格分隔）： web scraping ,python

做数据抓取一定一定要明确:抓取解析数据不是目的,目的是对数据的利用

一般的数据抓取结构如下:

概要

一个简单的web数据抓取的流程就像下面的图一样

HTML获取

分析工具
- Firefox
- Firebug
工具包
- urllib
- urllib2
- Requests
- phantomjs
- selenium
反反爬虫策略
- 动态设置User-Agent
- Cookie的使用
- 时间延迟/动态延迟设置
- 使用Google/Baidu Cache
- 使用IP代理池
调度策略

HTML解析(数据清晰)

工具包
- lxml(XPath)
- CSS选择器
- BeautifulSoup
- pyquery
- 正则表达式
数据存储

工具/格式
- JSON结构化纯文本
- XML结构化纯文本
- MySQL关系型数据库
- MongoDB非关系型数据库
相关阅读:
跨平台技术
 Unity和虚幻的比较
 商业模式(四)：群硕软件，欧美客户为主的软件外包
 商业模式(四)：群硕软件，欧美客户为主的软件外包
 Volley完全解析
 双十一京东图书购物清单，动动脑子节省300元
 双十一京东图书购物清单，动动脑子节省300元
 ListView异步加载图片，完美实现图文混排
 使用DrawerLayout实现QQ5.0侧拉菜单效果
 商业模式(三):P2P网贷平台，毛利润测算
原文地址：https://www.cnblogs.com/taceywong/p/5733595.html

热门文章
小程序获取用户的openid
恩格尔系数
 基尼系数
 框架
 hashmap hashtable
TaobaoVM
Java基础
 spring 基础
 TIOBE排行榜
 构架

Copyright © 2020-2023 润新知