记录groupby的一次操作

记录groupby的一次操作
df = pd.DataFrame({'key1':list('aabba'),
'key2': ['one','two','one','two','one'],
'data1': np.random.randn(5),
'data2': np.random.randn(5)})
df

data1 data2 key1 key2

0 -0.014192 2.236780 a one

1 -0.028981 0.507988 a two

2 -1.168170 -0.818003 b one

3 0.207849 0.755156 b two

4 -0.457174 -1.407547 a one

g=df.groupby(["key1"])
g.head（4）

data1 data2 key1 key2

0 -0.014192 2.236780 a one

1 -0.028981 0.507988 a two

2 -1.168170 -0.818003 b one

3 0.207849 0.755156 b two

g['data1'].head(2)
```
0   -0.014192
1   -0.028981
2   -1.168170
3    0.207849
Name: data1, dtype: float64
```
feature_bag = g['data1'].apply(lambda x:set(x)).reset_index()

feature_bag

前面的情况比较好了解，groupby返回的是一个groupby对象。它实际上还没有进行任何计算，只是含有一些有分组键的中间数据而已。

因此输出g的时候，没有变化，抽取其中一列也和直接对df操作并没有什么区别。

但是做操作：feature_bag = g['data1'].apply(lambda x:set(x)).reset_index()。

做集合的时候，是以groupby（）的key1的键值作为集合的生成判断标准的。
相关阅读:
Innodb加载数据字典 && flush tables
MySQL purge log简单吗
 MySQL ddl丢表
 数据库一致性读&&当前读
 java数组
 customer.java
java构造函数
 EXCEL 2007施工进度横道图制作步骤及实战练习
 如何利用office绘制施工进度计划横道图？
计算器
原文地址：https://www.cnblogs.com/smartwhite/p/9664360.html

	data1	data2	key1	key2
0	-0.014192	2.236780	a	one
1	-0.028981	0.507988	a	two
2	-1.168170	-0.818003	b	one
3	0.207849	0.755156	b	two
4	-0.457174	-1.407547	a	one

	data1	data2	key1	key2
0	-0.014192	2.236780	a	one
1	-0.028981	0.507988	a	two
2	-1.168170	-0.818003	b	one
3	0.207849	0.755156	b	two

最新文章
Visio 2013 专业版密钥
 物理文件
 压缩表
 索引的执行计划变化
 gdb
strace
pstack
pg权限系统
 5.7新特性
 redo