我的编程空间,编程开发者的网络收藏夹
学习永远不晚

pandas中groupby分组对象的组内排序解决方案有哪些

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

pandas中groupby分组对象的组内排序解决方案有哪些

这篇文章给大家分享的是有关pandas中groupby分组对象的组内排序解决方案有哪些的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

问题:

根据数据某列进行分组,选择其中另一列大小top-K的的所在行数据

解析:

求解思路很清晰,即先用groupby对数据进行分组,然后再根据分组后的某一列进行排序,选择排序结果后的top-K结果

案例:

取一下dataframe中B列各对象中C值最高所在的行

df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [200801, 200902, 200704, 201003]})

Groupby的基本功能介绍

groupby以后返回DataFrameGroupBy对象,实际上还没有进行任何计算,只是一个暂时存储的容器,

[In]df.groupby('B')[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x11800f588>

对groupby结果进行简单的列选取返回的也是DataFrameGroupBy/SeriesGroupBy对象,无法可视化

[In]df.groupby('B')['A']   # 返回SeriesGroupBy对象[Out]<pandas.core.groupby.SeriesGroupBy object at 0x117f6b630>[In]df.groupby('B')['A','C']   # 返回DataFrameGroupBy对象[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x117fb84e0>

需要对DataFrameGroupBy进行计数、统计、agg聚合计算、apply映射计算和transform等操作,才能生成可视化的数据(下文仅以count和size函数为例展示,不涉及其它的操作)

[In] df.groupby('B', as_index=False)['A'].count()  # 组内数据统计[Out] B A 0 a 2 1 b 2[In] df.groupby('B')['A'].size().reset_index(name='Size') # 组内数据统计,size和count的一个显著区别在于count不考虑Nan,size考虑Nan[Out] B Size 0  a 2 1  b 2

解决方案一:

对DataFrameGroupBy对象,用apply函数进行某列的sort_values排序,再选出其中的最大值所在行

# 返回值是一个带有multiindex的dataframe数据,其中level=0为groupby的by列,而level=1为原index[In] df.groupby('B').apply(lambda x: x.sort_values('C', ascending=False))[Out] A B CB  a 3 4 a 201003 0 2 a 200801b 1 3 b 200902 2 5 b 200704# 通过设置group_keys参数对multiindex进行优化[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False))[Out] A B  C 3 4 a 201003 0 2 a 200801 1 3 b 200902 2 5 b 200704# 再次groupby,并调用内置的first()方法,取最大值[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False)).groupby('B').first().reset_index()[Out]  B A  C 0 a 4 201003 1 b 3 200902

解决方案二:

先对B进行整体的sort_values,在groupy取值

[In] df.sort_values('C', ascending=False).groupby('B').first().reset_index()[Out]  B A  C 0 a 4 201003 1 b 3 200902

问题拓展:

以上仅解决了Top-1的问题,如果是Top-k呢?

答案:将first()函数变为head()函数

[In] df.sort_values('C', ascending=False).groupby('B').head(2)[Out] A B C 3 4 a 201003 1 3 b 200902 0 2 a 200801 2 5 b 200704

总结:

方案二,即先排序再groupby取值更方便

pandas中API众多,在实际使用时要捋清各步骤返回值的类型以方便记忆和联想

补充:pandas分组groupby、agg,排序sort,连接concat、join

连接concat和join

横向连接

pd.concat([df6,df7],axis=1)df6.join(df7)# df6的表格在前面,如需df7的表格在前需要交换位置

注意点:

concat这个方法,既可以实现横向连接,也可以实现纵向连接,通过设置axis的值来控制,axis=1表示的是横向连接,如果多个连接的对象,放在列表中

join也可以实现

纵向连接

pd.concat([df8,df9],ignore_index=True)

注意点:

进行纵向合并的数据,需要用[]集合起来

ignore_index忽略原有的行索引,重新排列

drop_duplicates()删除重复数据

排序

#按照成绩排序df10.sort_values('score')#默认升序,从小到大df10.sort_values(['score','group'],ascending=False,na_position='first')#sort各个属性
参数描述
by字符串或者列表,如果是单个排序字段,使用的是字符串,如果指定多个,需要使用列表
ascendingTrue的时候,是按照升序,默认是升序
na_position表示的是空值的位置,'last'是默认的,'first'开始位置

分组

### groupbydf11.groupby('class')df11.groupby(['class','grade'])for cls,data in df11.groupby(['class','grade']):print(cls)print(data)

注意点:

groupby 如果指定的是一个列,如果是多个列[]

groupby返回的是一个对象,所以不能直接访问,可以使用for

筛选出分组之后的列

如果筛选出一列数据[[列名]],返回的是dataframe对象

如果筛选出多个列数据,直接使用[]和[[]]均可

总结[[列1,列2,。。。。]]

聚合函数 agg配合使用

dff.groupby('class')[['math']].agg(['mean','max','min','median','std'])
函数描述
mean均值
max最大值
min最小值
median中位数
std标准差
count计数
skew偏度
quantile指定分位数

感谢各位的阅读!关于“pandas中groupby分组对象的组内排序解决方案有哪些”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

pandas中groupby分组对象的组内排序解决方案有哪些

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

pandas中groupby分组对象的组内排序解决方案有哪些

这篇文章给大家分享的是有关pandas中groupby分组对象的组内排序解决方案有哪些的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。问题:根据数据某列进行分组,选择其中另一列大小top-K的的所在行数据解析:求解
2023-06-14

PHP 中数组转对象的替代方案有哪些?

php 中数组转对象的替代方案有:类型强制转换:例如 $obj = (object) $arr;使用自定义类:定义一个类,并通过构造函数对属性进行赋值,例如 new person($arr);使用第三方库:如 doctrine\common
PHP 中数组转对象的替代方案有哪些?
2024-04-29

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录