1.数据收集
- scrapy:网页采集、爬虫。
- scrapy-redis:分布式爬虫。
- selenium:web测试、仿真浏览器。
2.数据处理
- beautifulsoup:网页解释库,提供lxml的支持。
- lxml:xml解释库。
- xlrd:excel文件读取。
- xlwt:excel文件写入。
- slutls:excel文件简单格式修改。
- pywin32:excel文件的读取写入及复杂格式定制。
- Python-docx:Word文件的读取写入。
3.数据分析
- numpy:基于矩阵的数学计算库。
- pandas:基于表格的统计分析库。
- scipy:科学计算库,支持高阶抽象和复杂模型。
- statsmodels:统计建模和计量经济学工具包。
- scikit-learn:机器学习工具库。
- gensim:自然语言处理工具库。
- jeba:中文分词工具库。
4.数据存储
- MySQL-python:mysql的读写接口库。
- mysqlclient:mysql的读写接口库。
- SQLAlchemy:数据库的ORM封装。
- pymysql:sqlserver读写接口库。
- redis:redis的读写接口。
- PyMongo:MongoDB的读写接口。
5.数据呈现
- matplotlib:流行的数据可视化库。
- seaborn:美观的数据可视化库,基于matplotlib。
6.工具辅助
- jupyter:基于web的pythonIDE,常用于数据分析。
- chardet:字符检查工具。
- ConfigParser:配置文件读写支持。
- requests:HTTP库,用于网络访问。