1.爬取数据的库和框架:urllib2和urllib, urllib3, requests, 框架:scrapy 和 分布式爬取库 scrapy-redis
2.解析html数据的:正则, xpath(语言) BeautifulSoup4
3.解析json数据的库:JsonPath
4.json通用提取数据方式是:先转换成python中字典,根据key取值,json库
5.数据分析的库:numpy, pandas
6.可视化的库:Matplotlib
7.数据存储:文件,mysql, mongodb, redis
注意:urllib2在python3中被改为 urllib.request ; python解释器自带urllib和urllib2 这两个库;