我的编程空间,编程开发者的网络收藏夹
学习永远不晚

pandas 实现分组后取第N行

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

pandas 实现分组后取第N行

目的:

把question_id 对应的user_answer转成ABCD

solution


dfa=df.groupby('question_id').nth(0).reset_index()
dfa['flag']='A'
dfb=df.groupby('question_id').nth(1).reset_index()
dfb['flag']='B'
dfc=df.groupby('question_id').nth(2).reset_index()
dfc['flag']='C'
dfd=df.groupby('question_id').nth(3).reset_index()
dfd['flag']='D'

resdf=dfa.append([dfb,dfc,dfd])
resdf.sort_values(by='question_id')

result

focus


g.nth(0) 
#同 
g.first()
g.head(1)
g.last()

g.nth(2)
g.nth(-1)

g.nth(0,dropna='any')
g.B.nth(0,dropna='all')
g.groups
g.get_group(134429)
g.discribe()
g.agg([np.mean,np.sum.np,std])

补充:pandas的分组取最大多行并求和函数nlargest()

在pandas库里面,我们常常关心的是最大的前几个,比如销售最好的几个产品,几个店,等。之前讲到的head(), 能够看到看到DF里面的前几行,如果需要看到最大或者最小的几行就需要先进行排序。max()和min()可以看到最大或者最小值,但是只能看到一个值。

所以我们可以使用nlargest()函数,nlargest()的优点就是能一次看到最大的几行,而且不需要排序。缺点就是只能看到最大的,看不到最小的。

我们来看看单价排在前十的数据:

单价排在前十的数据

nlargest()的第一个参数就是截取的行数。第二个参数就是依据的列名。

这样就可以筛选出单价最高的前十行,而且是按照单价从最高到最低进行排列的,所以还是按照之前的索引。

还可以按照total_price来进行排名:

按照total_price排名

nlargest还有一个参数,keep='first'或者'last'。当出现重复值的时候,keep='first',会选取在原始DataFrame里排在前面的,keep='last'则去排后面的。

由于nlagerst()不能去最小的多个值,如果我们一定要使用这个函数进行选取也是可以的.

先设置一个辅助列:

先设置一个辅助列

然后在进行选取:

以辅助列进行选取

当然了,也可以通过head()加上排序进行选取的。

那以前这些操作都可以通过其它函数来进行替代的话,nlargest()有什么必要介绍吗?或者说学不学这个函数有什么关系吗?

这就是我们今天要重点介绍的,如果说要选择不同location_road下的前五名要怎么操作呢?

很多人可能第一反应会想到先分组然后进行max()操作,但是这样的操作只能选择最大的一列:

使用max()

但是使用max有一个问题,就是选取的是每一列的最大值,而不是选取最大值的那一行,也就是说只能在选取单列的最大值的时候才是准确的。

这个时候我们就要想到apply和lambda的自定义函数了:

选取多个指标的TOP(N)

这样就选出了不同loaction_road的price排在前五的行了。

nlargest()函数在这种场景下使用是非常方便的,而且结果也已经默认排好顺序了。

还有一些场景下需要计算分组的前几名,然后在进行求和的,这个我们也可以使用nlargest进行操作:

分组之后进行求和

使用这种方法会出现报错提示,这个因为在列和索引都存在loaction_road,有重复,系统有警告,在实际使用时可以先改列名再操作。我们也可以换一种方式直接按照索引进行求和,这样就没有警告了:

以上为个人经验,希望能给大家一个参考,也希望大家多多支持编程网。如有错误或未考虑完全的地方,望不吝赐教。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

pandas 实现分组后取第N行

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

pandas如何实现分组后取第N行

这篇文章主要介绍pandas如何实现分组后取第N行,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!目的:把question_id 对应的user_answer转成ABCDsolutiondfa=df.groupby(q
2023-06-14

Python实现读取文件最后n行的方法

本文实例讲述了Python实现读取文件最后n行的方法。分享给大家供大家参考,具体如下:# -*- coding:utf8-*- import os import time import datetime import math import
2022-06-04

MySQL分组排序取每组第一条数据的实现

目录group bygroup by+子查询order byderived_merge子查询order by失效的场景需求:mysql根据某一个字段分组,然后组内排序,最后每组取排序后的第一条数据。准备表:CREATE TABLE `t
MySQL分组排序取每组第一条数据的实现
2024-08-09

db2分组排序取第一条数据怎么实现

要在DB2中分组排序并取每组的第一条数据,可以使用以下SQL语句:WITH ranked_data AS (SELECT*,ROW_NUMBER() OVER(PARTITION BY group_column ORDER BY sort
db2分组排序取第一条数据怎么实现
2024-03-13

Mysql分组排序取每组第一条的2种实现方式

目录前言前期准备第一种原因分析:解决:第二种GROUP_CONCAT函数解释:总结前言记录一下最近的一个需求,查不同产品排名第一的图片作为主图其实一开始想用的是myBATis的级联查询,js结果说需要一次性全部查出来那就没事了,改sq
2023-02-15

oracle实现根据字段分组排序,取其第一条数据

这篇文章主要介绍了oracle实现根据字段分组排序,取其第一条数据方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
2023-02-28

mysql实现按组区分后获取每组前几名的sql写法

目录一、创建表,插入相关测试数据二、查询每科成绩前三的记录三、查询学生各科分数大于等于90分的记录1. 第一种写法:正向思考2. 第二种写法:逆向思考总结遇到一个场景,要把数据分组,然后获取每组前10条数据,首先我想到用group by分组
2023-03-20

mysql实现按组区分后获取每组前几名的sql怎么写

本篇内容介绍了“mysql实现按组区分后获取每组前几名的sql怎么写”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!遇到一个场景,要把数据分组
2023-03-23

怎么使用python groupby函数实现分组后选取最值

这篇文章主要介绍“怎么使用python groupby函数实现分组后选取最值”,在日常操作中,相信很多人在怎么使用python groupby函数实现分组后选取最值问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答
2023-07-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录