1.6 Navigating This Book(本书导航)
如果之前没有接触过Python,那么你应该在第2章和第3章多花一些时间。这两章介绍了Python语言的特性和IPython shell以及Jupyter notebooks。这些东西是本书的基本知识。如果已经有了相关经验,可以直接跳过这些章节。
在第4章,会介绍一些Numpy的关键用法,高级用法的部分会放在附录A。
第5章,介绍pandas。在剩余的章节,会使用pandas、numpy和matplotlib(可视化)。
本书的章节尽可能以递增的形式组织,当然,有些知识是会跨章节的。
通常来说,一些任务可以归为下面几类:
- Interacting with the outside world (与外界交互)
读取和写入各种文件格式,存储数据
- Preparation(准备)
数据清洗和处理,方便之后的建模或分析
- Transformation(转换)
对不同的数据进行分组,并使用一些数学或模型,来产生新的数据集(比如对一个大表格进行聚合操作)
- Modeling and computation
把数据喂给统计模型,机器学习算法,或其他工具
- Presentation
制作可交互的,或静态的图形可视化,或一些文本摘要
1 代码范例
本书的大部分代码由input和output组成,用IPython shell或Jupyter notebook呈现:
#code example
s='I love Python'
#output
s
'I love Python'
可以看到上面一个cell左侧有in和out的标识。
2 数据
本书中的数据可以从GitHub上下载(可以在datasets文件夹中找到)
3 Import Conventions(Import惯例)
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import statsmodels as sm
4 Jargon(行话)
Munge/munging/wrangling
这个是用来描述把不结构化或乱七八糟的数据,变为结构化,干净形式的过程。
这个过程我基本使用数据清洗,数据处理来指代。
Pseudocode(伪代码)
Syntactic sugar(语法糖)
在不添加新特征的前提下,让代码更方便易用的编程语法。