《Python数据科学手册》共五章,每章介绍一到两个Python数据科学中的重点工具包。首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境;第2章讲解能提供ndarray对象的NumPy,它可以用Python高效地存储和操作大型数组;第3章主要涉及提供DataFrame对象的Pandas,它可以用Python高效地存储和操作带标签的/列式数据;第4章的主角是Matplotlib,它为Python提供了许多数据可视化功能;第5章以Scikit-Learn为主,这个程序库为最重要的机器学习算法提供了高效整洁的Python版实现。
本书主要框架:
第2章:NumPy介绍
2.1 理解Python中的数据类型
2.2 NumPy数组基础
2.3 NumPy数组的计算:通用函数
2.4 聚合:最小值、最大值和其他值
2.5 数组的计算:广播
2.6 比较、掩码和布尔运算
2.7 花哨的索引
2.8 数组的排序
2.9 结构化数据:NumPy的结构化数组
3 Pandas数据处理
3.1 Pandas对象简介
3.2 数据取值与选择
3.3 Pandas数值运算方法
3.4 处理缺失值
3.5 层级索引
3.6 合并数据集:ConCat和Append方法
3.7 合并数据集:合并与连接
3.8 累计与分组
3.9 数据透视表
3.10 向量化字符串操作
3.11 处理时间序列
3.12 高性能Pandas:eval()与query()
4 Matplotlib数据可视化
4.1 简易线形图
4.2 简易散点图
4.3 可视化异常处理
4.4 密度图与等高线图
4.5 直方图
4.6 配置图例
4.7 配置颜色条
4.8 多子图
4.9 文字与注释
4.10 画三维图
中文版下载地址:
https://github.com/MachineLearning100/100-Days-Of-ML-Code/blob/master/Other Docs/Python数据科学手册.zip
代码及案例: