读取数据
用 pd.read_csv
来读取csv数据,目前对我来说已经够用了,用 index_col
指定索引。
DataFrame 构建
可以直接从 csv 读取数据,也可以用 Series 来构建, 或者用 dict 来构建, 这个自由度还是很大的。
DateFrame 操作
以titanic
数据为例:
查看年龄缺失项:
填充年龄为平均值:
检验 age 是否还有缺失值:
OK,证明我们的思路正确。
交换某两列
有时候我们需要交换一下列, 比如让 pclass 在 survived 的前面。
提取某两列
设定索引
按索引排序
GroupBy 操作
自定义Group
比如我们想对年龄进行 group,每隔 5 岁定义为一组,这就要自己定义group列:
删除某一列
作图
分割列,一列变两列
参考:列str分割