位置：首页-资讯-后端开发

pandas中groupby分组对象的组内排序解决方案有哪些

2023-06-14 08:02

短信预约 -IT技能 免费直播动态提醒

这篇文章给大家分享的是有关pandas中groupby分组对象的组内排序解决方案有哪些的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

问题：

根据数据某列进行分组，选择其中另一列大小top-K的的所在行数据

解析：

求解思路很清晰，即先用groupby对数据进行分组，然后再根据分组后的某一列进行排序，选择排序结果后的top-K结果

案例：

取一下dataframe中B列各对象中C值最高所在的行

df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [200801, 200902, 200704, 201003]})

Groupby的基本功能介绍

groupby以后返回DataFrameGroupBy对象，实际上还没有进行任何计算，只是一个暂时存储的容器，

[In]df.groupby('B')[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x11800f588>

对groupby结果进行简单的列选取返回的也是DataFrameGroupBy/SeriesGroupBy对象，无法可视化

[In]df.groupby('B')['A']   # 返回SeriesGroupBy对象[Out]<pandas.core.groupby.SeriesGroupBy object at 0x117f6b630>[In]df.groupby('B')['A','C']   # 返回DataFrameGroupBy对象[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x117fb84e0>

需要对DataFrameGroupBy进行计数、统计、agg聚合计算、apply映射计算和transform等操作，才能生成可视化的数据(下文仅以count和size函数为例展示，不涉及其它的操作)

[In] df.groupby('B', as_index=False)['A'].count()  # 组内数据统计[Out] B A 0 a 2 1 b 2[In] df.groupby('B')['A'].size().reset_index(name='Size') # 组内数据统计，size和count的一个显著区别在于count不考虑Nan，size考虑Nan[Out] B Size 0  a 2 1  b 2

解决方案一：

对DataFrameGroupBy对象，用apply函数进行某列的sort_values排序，再选出其中的最大值所在行

# 返回值是一个带有multiindex的dataframe数据，其中level=0为groupby的by列，而level=1为原index[In] df.groupby('B').apply(lambda x: x.sort_values('C', ascending=False))[Out] A B CB  a 3 4 a 201003 0 2 a 200801b 1 3 b 200902 2 5 b 200704# 通过设置group_keys参数对multiindex进行优化[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False))[Out] A B  C 3 4 a 201003 0 2 a 200801 1 3 b 200902 2 5 b 200704# 再次groupby，并调用内置的first()方法，取最大值[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False)).groupby('B').first().reset_index()[Out]  B A  C 0 a 4 201003 1 b 3 200902

解决方案二：

先对B进行整体的sort_values，在groupy取值

[In] df.sort_values('C', ascending=False).groupby('B').first().reset_index()[Out]  B A  C 0 a 4 201003 1 b 3 200902

问题拓展：

以上仅解决了Top-1的问题，如果是Top-k呢？

答案：将first()函数变为head()函数

[In] df.sort_values('C', ascending=False).groupby('B').head(2)[Out] A B C 3 4 a 201003 1 3 b 200902 0 2 a 200801 2 5 b 200704

总结：

方案二，即先排序再groupby取值更方便

pandas中API众多，在实际使用时要捋清各步骤返回值的类型以方便记忆和联想

补充：pandas分组groupby、agg，排序sort，连接concat、join

连接concat和join

横向连接

pd.concat([df6,df7],axis=1)df6.join(df7)# df6的表格在前面，如需df7的表格在前需要交换位置

注意点：

concat这个方法，既可以实现横向连接，也可以实现纵向连接，通过设置axis的值来控制，axis=1表示的是横向连接，如果多个连接的对象，放在列表中

join也可以实现

纵向连接

pd.concat([df8,df9],ignore_index=True)

注意点：

进行纵向合并的数据，需要用[]集合起来

ignore_index忽略原有的行索引，重新排列

drop_duplicates()删除重复数据

排序

#按照成绩排序df10.sort_values('score')#默认升序，从小到大df10.sort_values(['score','group'],ascending=False,na_position='first')#sort各个属性

参数	描述
by	字符串或者列表，如果是单个排序字段，使用的是字符串，如果指定多个，需要使用列表
ascending	True的时候，是按照升序，默认是升序
na_position	表示的是空值的位置，'last'是默认的，'first'开始位置

分组

### groupbydf11.groupby('class')df11.groupby(['class','grade'])for cls,data in df11.groupby(['class','grade']):print(cls)print(data)

注意点：

groupby 如果指定的是一个列，如果是多个列[]

groupby返回的是一个对象，所以不能直接访问，可以使用for

筛选出分组之后的列

如果筛选出一列数据[[列名]]，返回的是dataframe对象

如果筛选出多个列数据，直接使用[]和[[]]均可

总结[[列1，列2，。。。。]]

聚合函数 agg配合使用

dff.groupby('class')[['math']].agg(['mean','max','min','median','std'])

函数	描述
mean	均值
max	最大值
min	最小值
median	中位数
std	标准差
count	计数
skew	偏度
quantile	指定分位数

感谢各位的阅读！关于“pandas中groupby分组对象的组内排序解决方案有哪些”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

pandas中groupby分组对象的组内排序解决方案有哪些

下载Word文档到电脑，方便收藏和打印～

下载Word文档

pandas中groupby分组对象的组内排序解决方案有哪些

问题：

解析：

案例：

解决方案一：

解决方案二：

问题拓展：

总结：

连接concat和join

排序

分组

筛选出分组之后的列

聚合函数 agg配合使用

pandas中groupby分组对象的组内排序解决方案有哪些

相关文章

猜你喜欢

pandas中groupby分组对象的组内排序解决方案有哪些

pandas groupby分组对象的组内排序解决方案

PHP 中数组转对象的替代方案有哪些？

Python API 中自然语言处理对象的常见问题及解决方案有哪些？

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复