Python中常用探索性数据分析方法有哪些

2023-06-25 16:05

短信预约 -IT技能 免费直播动态提醒

这篇文章主要介绍了Python中常用探索性数据分析方法有哪些，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。

常用探索性数据分析方法很多，比如常用的 Pandas DataFrame 方法有 .head()、.tail()、.info()、.describe()、.plot() 和 .value_counts()。

import pandas as pdimport numpy as npdf = pd.DataFrame( {     "Student" : ["Mike", "Jack", "Diana", "Charles", "Philipp", "Charles", "Kale", "Jack"] ,           "City" : ["London", "London", "Berlin", "London", "London", "Berlin", "London", "Berlin"] ,"Age" : [20, 40, 18, 24, 37, 40, 44, 20 ],"Maths_Score" : [84, 80, 50, 36, 44, 24, 41, 35],"Science_Score" : [66, 83, 51, 35, 43, 58, 71, 65]} ) df

在 Pandas 中创建 groupby() 对象

在许多情况下，我们希望将数据集拆分为多个组并对这些组进行处理。 Pandas 方法 groupby() 用于将 DataFrame 中的数据分组。

与其一起使用 groupby() 和聚合方法，不如创建一个 groupby() 对象。理想的情况是，我们可以在需要时直接使用此对象。

让我们根据列“City”将给定的 DataFrame 分组

df_city_group = df.groupby("City")

我们创建一个对象 df_city_group，该对象可以与不同的聚合相结合，例如 min()、max()、mean()、describe() 和 count()。一个例子如下所示。

Python中常用探索性数据分析方法有哪些

要获取“City”是Berlin的 DataFrame 子集，只需使用方法 .get_group()

Python中常用探索性数据分析方法有哪些

这不需要为每个组创建每个子 DataFrame 的副本，比较节省内存。

另外，使用 .groupby() 进行切片比常规方法快 2 倍！！

Python中常用探索性数据分析方法有哪些

使用 .nlargest()

通常，我们根据特定列的值了解 DataFrame 的 Top 3 或 Top 5 数据。例如，从考试中获得前 3 名得分者或从数据集中获得前 5 名观看次数最多的电影。使用 Pandas .nlargest() 是最简单的方式。

df.nlargest(N, column_name, keep = ‘first' )

使用 .nlargest() 方法，可以检索包含指定列的 Top ‘N' 值的 DataFrame 行。

在上面的示例中，让我们获取前 3 个“Maths_Score”的 DataFrame 的行。

Python中常用探索性数据分析方法有哪些

如果两个值之间存在联系，则可以修改附加参数和可选参数。它需要值“first”、“last”和“all”来检索领带中的第一个、最后一个和所有值。这种方法的优点是，你不需要专门对 DataFrame 进行排序。

使用 .nsmallest()

与Top 3 或5 类似，有时我们也需要DataFrame 中的Last 5 条记录。例如，获得评分最低的 5 部电影或考试中得分最低的 5 名学生。使用 Pandas .nsmallest() 是最简单的方式

df.nsmallestst(N, column_name, keep = ‘first' )

使用 .nsmallest() 方法，可以检索包含指定列的底部“N”个值的 DataFrame 行。

在同一个示例中，让我们获取 DataFrame“df”中“Maths_Score”最低的 3 行。

Python中常用探索性数据分析方法有哪些

逻辑比较

比较运算符 <、>、<=、>=、==、!= 及其包装器 .lt()、.gt()、.le()、.ge()、.eq() 和 .ne() 分别在以下情况下非常方便将 DataFrame 与基值进行比较，这种比较会产生一系列布尔值，这些值可用作以后的指标。

基于比较对 DataFrame 进行切片
可以基于与值的比较从 DataFrame 中提取子集。
根据两列的比较在现有 DataFrame 中创建一个新列。

所有这些场景都在下面的示例中进行了解释

# 1. Comparing the DataFrame to a base value# Selecting the columns with numerical values onlydf.iloc[:,2:5].gt(50)df.iloc[:,2:5].lt(50)# 2. Slicing the DataFrame based on comparison# df1 is subset of df when values in "Maths_Score" column are not equal or equal to '35'df1 = df[df["Maths_Score"].ne(35)]df2 = df[df["Maths_Score"].eq(35)]# 3. Creating new column of True-False values by comparing two columnsdf["Maths_Student"] = df["Maths_Score"].ge(df["Science_Score"])df["Maths_Student_1"] = df["Science_Score"].le(df["Maths_Score"])

感谢你能够认真阅读完这篇文章，希望小编分享的“Python中常用探索性数据分析方法有哪些”这篇文章对大家有帮助，同时也希望大家多多支持编程网，关注编程网行业资讯频道，更多相关知识等着你来学习!

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉