爬虫数据处理 pandas数据处理

pandas数据处理

使用duplicated()函数检测重复的行，返回元素为布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为True

- keep参数：指定保留哪一重复的行数据

单值替换
- 普通替换：替换所有符合要求的元素:to_replace=15,value='e'
- 按列指定单值替换： to_replace={列标签：替换值} value='value'

多值替换
- 列表替换: to_replace=[] value=[]
- 字典替换（推荐） to_replace={to_replace:value,to_replace:value}

使用df.std()函数可以求得DataFrame对象每一列的标准差

数据清洗

当DataFrame规模足够大时，直接使用np.random.permutation(x)函数，就配合take()函数实现随机抽样

数据聚合是数据处理的最后一步，通常是要使每一个数组生成一个单一的数值。

数据分类处理：

数据分类处理的核心：

 - groupby()函数
 - groups属性查看分组情况
 - eg: df.groupby(by='item').groups

相关阅读:
06-图3 六度空间
06-图2 Saving James Bond
06-图1 列出连通集
05-树9 Huffman Codes
数据结构学习笔记04树(堆哈夫曼树并查集)
05-树8 File Transfer
05-树7 堆中的路径
十天学会单片机Day1点亮数码管(数码管、外部中断、定时器中断)
设计模式—— 四：接口隔离原则
设计模式—— 一：单一职责原则

原文地址：https://www.cnblogs.com/XLHIT/p/11347436.html