我的编程空间,编程开发者的网络收藏夹
学习永远不晚

pandas中的数值计算及统计基础

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

pandas中的数值计算及统计基础

  1 import pandas as pd
  2 import numpy as np
  3 
  4 df = pd.DataFrame({
  5     'key1': [4, 5, 3, np.nan, 2],
  6     'key2': [1, 2, np.nan, 4, 5],
  7     'key3': [1, 2, 3, 'j', 'k']
  8 }, index=['a', 'b', 'c', 'd', 'e'])
  9 print(df)
 10 print(df['key1'].dtype,df['key2'].dtype,df['key3'].dtype)
 11 print('-------')
 12 '''
 13    key1  key2 key3
 14 a   4.0   1.0    1
 15 b   5.0   2.0    2
 16 c   3.0   NaN    3
 17 d   NaN   4.0    j
 18 e   2.0   5.0    k
 19 float64 float64 object
 20 -------
 21 '''
 22 # 计算每一列的均值 df.mean()
 23 # 只统计数字列,默认忽略nan。
 24 print(df.mean())
 25 '''
 26 key1    3.5
 27 key2    3.0
 28 dtype: float64
 29 '''
 30 # 不忽略nan值计算均值
 31 # skipna默认为True,如果为False,有NaN的列统计结果仍为NaN
 32 m3 = df.mean(skipna=False)
 33 print(m3)
 34 '''
 35 key1   NaN
 36 key2   NaN
 37 dtype: float64
 38 '''
 39 # 计算单一列的均值
 40 print('计算单一列的均值',df['key2'].mean())
 41 '''
 42 计算单一列的均值 3.0
 43 '''
 44 
 45 df2 = pd.DataFrame({
 46     'key1': [1, 3, 5],
 47     'key2': [2, 4, 6],
 48     'key3': [3, 5, 7]
 49 }, index=['a', 'b', 'c'])
 50 # print(df2)
 51 # print('--------df2')
 52 # 计算df2每一行的均值并将其结果添加到新的列
 53 df2['mean'] = df2.mean(axis=1)
 54 print(df2)
 55 '''
 56    key1  key2  key3  mean
 57 a     1     2     3   2.0
 58 b     3     4     5   4.0
 59 c     5     6     7   6.0
 60 '''
 61 
 62 # 统计非NaN值的数量  count()
 63 print(df)
 64 print('-'*6)
 65 print(df.count())
 66 '''
 67    key1  key2 key3
 68 a   4.0   1.0    1
 69 b   5.0   2.0    2
 70 c   3.0   NaN    3
 71 d   NaN   4.0    j
 72 e   2.0   5.0    k
 73 ------
 74 key1    4
 75 key2    4
 76 key3    5
 77 dtype: int64
 78 '''
 79 
 80 # 统计
 81 print(df)
 82 print('-' * 6)
 83 print('df的最小值',df.min())
 84 print('df的最大值',df.max())
 85 print('df的key2列的最大值',df['key2'].max())
 86 print('统计df的分位数,参数q确定位置',df.quantile(q=0.75))
 87 print('对df求和',df.sum())
 88 print('求df的中位数,median(),50%分位数',df.median())
 89 print('求df的标准差,std()',df.std())
 90 print('求df的方差,var()',df.var())
 91 print('求skew样本的偏度,skew()',df.skew())
 92 print('求kurt样本的峰度,kurt()',df.kurt())
 93 print('df累计求和,cumsum()',df['key2'].cumsum())
 94 print('df累计求积,cumprod()',df['key2'].cumprod())
 95 print('求df的累计最大值,cummax()', df['key2'].cummax())
 96 print('求df的累计最小值,cummin()', df['key2'].cummin())
 97 '''
 98    key1  key2 key3
 99 a   4.0   1.0    1
100 b   5.0   2.0    2
101 c   3.0   NaN    3
102 d   NaN   4.0    j
103 e   2.0   5.0    k
104 ------
105 df的最小值 key1    2.0
106 key2    1.0
107 dtype: float64
108 df的最大值 key1    5.0
109 key2    5.0
110 dtype: float64
111 df的key2列的最大值 5.0
112 统计df的分位数,参数q确定位置 key1    4.25
113 key2    4.25
114 Name: 0.75, dtype: float64
115 对df求和 key1    14.0
116 key2    12.0
117 dtype: float64
118 求df的中位数,median(),50%分位数 key1    3.5
119 key2    3.0
120 dtype: float64
121 求df的标准差,std() key1    1.290994
122 key2    1.825742
123 dtype: float64
124 求df的方差,var() key1    1.666667
125 key2    3.333333
126 dtype: float64
127 求skew样本的偏度,skew() key1    0.0
128 key2    0.0
129 dtype: float64
130 求kurt样本的峰度,kurt() key1   -1.2
131 key2   -3.3
132 dtype: float64
133 df累计求和,cumsum() a     1.0
134 b     3.0
135 c     NaN
136 d     7.0
137 e    12.0
138 Name: key2, dtype: float64
139 df累计求积,cumprod() a     1.0
140 b     2.0
141 c     NaN
142 d     8.0
143 e    40.0
144 Name: key2, dtype: float64
145 求df的累计最大值,cummax() a    1.0
146 b    2.0
147 c    NaN
148 d    4.0
149 e    5.0
150 Name: key2, dtype: float64
151 求df的累计最小值,cummin() a    1.0
152 b    1.0
153 c    NaN
154 d    1.0
155 e    1.0
156 Name: key2, dtype: float64
157 '''
158 
159 # 唯一值 :unique()
160 s = pd.Series(list('kjdhsakjdhjfh'))
161 sq = s.unique()
162 print(s)
163 print(sq)
164 print('sq的类型:',type(sq))
165 print('对sq进行重新排序:',pd.Series(sq).sort_values())
166 '''
167 0     k
168 1     j
169 2     d
170 3     h
171 4     s
172 5     a
173 6     k
174 7     j
175 8     d
176 9     h
177 10    j
178 11    f
179 12    h
180 dtype: object
181 ['k' 'j' 'd' 'h' 's' 'a' 'f']
182 sq的类型: <class 'numpy.ndarray'>
183 对sq进行重新排序: 5    a
184 2    d
185 6    f
186 3    h
187 1    j
188 0    k
189 4    s
190 dtype: object
191 '''
192 # 对某一列进行值的计数,只能对一列,不能对Dataframe
193 print(df['key2'].value_counts())
194 
195 # 判断Dataframe中的每个元素是否都是在某个列表中
196 print(df)
197 df_isin = df.isin([1,3])
198 print(df_isin)
199 '''
200    key1  key2 key3
201 a   4.0   1.0    1
202 b   5.0   2.0    2
203 c   3.0   NaN    3
204 d   NaN   4.0    j
205 e   2.0   5.0    k
206 
207 
208     key1   key2   key3
209 a  False   True   True
210 b  False  False  False
211 c   True  False   True
212 d  False  False  False
213 e  False  False  False
214 '''

 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

pandas中的数值计算及统计基础

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

pandas中的数值计算及统计基础

1 import pandas as pd 2 import numpy as np 3 4 df = pd.DataFrame({ 5 'key1': [4, 5, 3, np.nan, 2], 6 'key2
2023-01-31

如何在pandas中统计重复值的次数

本篇文章为大家展示了如何在pandas中统计重复值的次数,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。具体如下:from pandas import DataFramedf = DataFrame(
2023-06-06

python中numpy基础学习及进行数组和矢量计算

前言 在python 中有时候我们用数组操作数据可以极大的提升数据的处理效率,类似于R的向量化操作,是的数据的操作趋于简单化,在python 中是使用numpy模块可以进行数组和矢量计算。 下面来看下简单的例子import numpy as
2022-06-04

Python中怎么利用pandas实现求和运算和非空值个数统计

今天就跟大家聊聊有关Python中怎么利用pandas实现求和运算和非空值个数统计,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。准备工作本文用到的表格内容如下:先来看一下原始情形:i
2023-06-20

linux中shell的变量的数值计算

1、expr命令a=123 expr $a + 10 ##加法 expr $a - 10 ##减法 expr $a \* 10
2022-06-04

Pandas中怎么按日期筛选、显示及统计数据

小编给大家分享一下Pandas中怎么按日期筛选、显示及统计数据,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!运行环境为 windows系统,64位,python3
2023-06-04

Android开发中如何解决计算器的sin、cos及tan值计算问题

小编给大家分享一下Android开发中如何解决计算器的sin、cos及tan值计算问题,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!具体如下:接到一个需求 :要求计算器sin90=1,拿到知道很疑问 难道不等于一么?测试了
2023-05-30

linux中shell怎么计算变量的数值

这期内容当中小编将会给大家带来有关linux中shell怎么计算变量的数值,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1、expr命令a=123expr $a + 10
2023-06-09

python怎么应用于数据的基础统计分析

小编给大家分享一下python怎么应用于数据的基础统计分析,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的脚本语言,其最初的设计是用于编
2023-06-14

简单讲解Python中的数字类型及基本的数学计算

Python有四种类型的数字: 1.整型 a = 2 print a 2.长整型 b = 123456789 print b 3.浮点数 c = 3.2E2 print c 4.复数 复数为实数的推广,它使任一多项式都有根。复数
2022-06-04

Java中计算集合中元素的出现次数统计

这篇文章介绍了Java中计算集合中元素出现次数统计的多种方法。可以通过使用HashMap、Stream和Collectors或者ApacheCommonsCollections库来实现。具体选择哪种方法取决于集合大小、性能需求和限制。这篇文章提供了具体代码示例,供读者参考。
Java中计算集合中元素的出现次数统计
2024-04-02

如何理解linux中的数值计算的语言

这篇文章主要介绍“如何理解linux中的数值计算的语言”,在日常操作中,相信很多人在如何理解linux中的数值计算的语言问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何理解linux中的数值计算的语言”的疑
2023-06-13

javascript如何计算数组中某值的出现次数

这篇文章主要介绍了javascript如何计算数组中某值的出现次数问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
2023-01-17

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录