Seaborn数据分析NBA球员信息数据集

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

1. 数据介绍

数据集共有342个球员样本，38个特征，即342行×38列。
数据集主要信息如下表所示：

球员姓名	位置	身高	体重	年龄	球龄	上场次数	场均时间	进攻能力	防守能力	是否入选过全明星	球员薪金

本数据集主要可以用来做数据处理以及数据挖掘，进行数据可视化。
本小结，我们将对NBA球员数据集进行初步统计学分析，并且绘制出相关性热力图。

2. 案例演示

2.1 获取数据

导入相关库，并使用如下代码进行本地数据集获取。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 获取数据集
NBA = pd.read_csv("nba_2017_nba_players_with_salary.csv")
NBA.head()

运行结果：

2.2 查看数据基本信息

先进行简单的统计学分析，查看标准差、中位数、方差等等信息。

# 看一下数据有多少
NBA.shape
# 查看基本统计信息
NBA.describe()

部分运行结果：

2.3 数据分析

2.3.1 效率值相关性分析

在众多数据中，有一项名为RPM，表示球员的效率值。该数据反映球员在场时对球队比赛获胜的贡献大小，最能反映球员的综合实力。我们可以看一下它与其他数据的相关性。

首先，我们取出几个有用的特征分析相关性，并绘制热力图。

# 2. 数据分析
## 2.1 效率值相关性分析
NBA_1 = NBA.loc[:, ['RPM','AGE','SALARY_MILLIONS','ORB','DRB','TRB','AST','AST','STL','BLK','TOV','PF','POINTS','GP','MPG','ORPM','DRPM']]
NBA_1.head()

然后，使用如下代码计算出相关性表。

# 计算相关性
# 获取两列之间的相关性
corr = NBA_1.corr()
corr

部分运行结果如下图所示：

最后，使用刚才的相关性表，绘制出相关性关系热力图

# 调用热力图绘制相关性关系
plt.figure(figsize=(20,20),dpi=120)
sns.heatmap(corr, square=True, linewidths=0.1, annot=True)
# 保存图像
plt.savefig("./test.png")
# 颜色越深：相关性越弱
# 颜色越浅：相关性越强

运行结果如下图所示：