位置：首页-资讯-后端开发

pandas groupby分组对象的组内排序解决方案

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

问题：

根据数据某列进行分组，选择其中另一列大小top-K的的所在行数据

解析：

求解思路很清晰，即先用groupby对数据进行分组，然后再根据分组后的某一列进行排序，选择排序结果后的top-K结果

案例：

取一下dataframe中B列各对象中C值最高所在的行


df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [200801, 200902, 200704, 201003]})

Groupby的基本功能介绍

groupby以后返回DataFrameGroupBy对象，实际上还没有进行任何计算，只是一个暂时存储的容器，


[In]df.groupby('B')
[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x11800f588>

对groupby结果进行简单的列选取返回的也是DataFrameGroupBy/SeriesGroupBy对象，无法可视化


[In]df.groupby('B')['A']   # 返回SeriesGroupBy对象
[Out]<pandas.core.groupby.SeriesGroupBy object at 0x117f6b630>

[In]df.groupby('B')['A','C']   # 返回DataFrameGroupBy对象
[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x117fb84e0>

需要对DataFrameGroupBy进行计数、统计、agg聚合计算、apply映射计算和transform等操作，才能生成可视化的数据(下文仅以count和size函数为例展示，不涉及其它的操作)


[In] df.groupby('B', as_index=False)['A'].count()  # 组内数据统计
[Out] B A
 0 a 2
 1 b 2

[In] df.groupby('B')['A'].size().reset_index(name='Size') # 组内数据统计，size和count的一个显著区别在于count不考虑Nan，size考虑Nan
[Out] B Size
 0  a 2
 1  b 2

解决方案一：

对DataFrameGroupBy对象，用apply函数进行某列的sort_values排序，再选出其中的最大值所在行


# 返回值是一个带有multiindex的dataframe数据，其中level=0为groupby的by列，而level=1为原index
[In] df.groupby('B').apply(lambda x: x.sort_values('C', ascending=False))
[Out] A B C
B  
a 3 4 a 201003
 0 2 a 200801
b 1 3 b 200902
 2 5 b 200704

# 通过设置group_keys参数对multiindex进行优化
[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False))
[Out] A B  C
 3 4 a 201003
 0 2 a 200801
 1 3 b 200902
 2 5 b 200704

# 再次groupby，并调用内置的first()方法，取最大值
[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False)).groupby('B').first().reset_index()
[Out]  B A  C
 0 a 4 201003
 1 b 3 200902

解决方案二：

先对B进行整体的sort_values，在groupy取值


[In] df.sort_values('C', ascending=False).groupby('B').first().reset_index()
[Out]  B A  C
 0 a 4 201003
 1 b 3 200902

问题拓展：

以上仅解决了Top-1的问题，如果是Top-k呢？

答案：将first()函数变为head()函数


[In] df.sort_values('C', ascending=False).groupby('B').head(2)
[Out] A B C
 3 4 a 201003
 1 3 b 200902
 0 2 a 200801
 2 5 b 200704

总结：

1、方案二，即先排序再groupby取值更方便

2、pandas中API众多，在实际使用时要捋清各步骤返回值的类型以方便记忆和联想

补充：pandas分组groupby、agg，排序sort，连接concat、join

连接concat和join

横向连接


pd.concat([df6,df7],axis=1)
df6.join(df7)

# df6的表格在前面，如需df7的表格在前需要交换位置

注意点：

1、concat这个方法，既可以实现横向连接，也可以实现纵向连接，通过设置axis的值来控制，axis=1表示的是横向连接，如果多个连接的对象，放在列表中

2、join也可以实现

纵向连接


pd.concat([df8,df9],ignore_index=True)

注意点：

1、进行纵向合并的数据，需要用[]集合起来

2、ignore_index忽略原有的行索引，重新排列

3、drop_duplicates()删除重复数据

排序


#按照成绩排序
df10.sort_values('score')
#默认升序，从小到大

df10.sort_values(['score','group'],ascending=False,na_position='first')
#sort各个属性

参数	描述
by	字符串或者列表，如果是单个排序字段，使用的是字符串，如果指定多个，需要使用列表
ascending	True的时候，是按照升序，默认是升序
na_position	表示的是空值的位置，'last'是默认的，'first'开始位置

分组


### groupby
df11.groupby('class')
df11.groupby(['class','grade'])

for cls,data in df11.groupby(['class','grade']):
print(cls)
print(data)

注意点：

1、groupby 如果指定的是一个列，如果是多个列[]

2、groupby返回的是一个对象，所以不能直接访问，可以使用for

筛选出分组之后的列

如果筛选出一列数据[[列名]]，返回的是dataframe对象

如果筛选出多个列数据，直接使用[]和[[]]均可

总结[[列1，列2，。。。。]]

聚合函数 agg配合使用


dff.groupby('class')[['math']].agg(['mean','max','min','median','std'])

函数	描述
mean	均值
max	最大值
min	最小值
median	中位数
std	标准差
count	计数
skew	偏度
quantile	指定分位数

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。如有错误或未考虑完全的地方，望不吝赐教。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

pandas groupby分组对象的组内排序解决方案

下载Word文档到电脑，方便收藏和打印～

下载Word文档

pandas groupby分组对象的组内排序解决方案

问题：

解析：

案例：

解决方案一：

解决方案二：

问题拓展：

总结：

连接concat和join

排序

分组

筛选出分组之后的列

聚合函数 agg配合使用

pandas groupby分组对象的组内排序解决方案

相关文章

猜你喜欢

pandas groupby分组对象的组内排序解决方案

pandas中groupby分组对象的组内排序解决方案有哪些

pandas的排序、分组groupby及cumsum累计求和方式

pandas的排序、分组groupby及cumsum累计求和的方法

JavaScript中好用的数组对象排序方法分享

ASP对象与组件实战指南：打造高效稳定的Web解决方案

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复