Seaborn数据分析NBA球员信息数据集
短信预约 -IT技能 免费直播动态提醒
本案例使用 Jupyter Notebook进行案例演示,数据集为NBA球员信息数据集。本项目将进行完整的数据分析演示。
1. 数据介绍
- 数据集共有342个球员样本,38个特征,即342行×38列。
- 数据集主要信息如下表所示:
球员姓名 | 位置 | 身高 | 体重 | 年龄 | 球龄 | 上场次数 | 场均时间 | 进攻能力 | 防守能力 | 是否入选过全明星 | 球员薪金 |
---|
- 本数据集主要可以用来做数据处理以及数据挖掘,进行数据可视化。
- 本小结,我们将对NBA球员数据集进行初步统计学分析,并且绘制出相关性热力图。
2. 案例演示
2.1 获取数据
导入相关库,并使用如下代码进行本地数据集获取。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 获取数据集
NBA = pd.read_csv("nba_2017_nba_players_with_salary.csv")
NBA.head()
运行结果:
2.2 查看数据基本信息
先进行简单的统计学分析,查看标准差、中位数、方差等等信息。
# 看一下数据有多少
NBA.shape
# 查看基本统计信息
NBA.describe()
部分运行结果:
2.3 数据分析
2.3.1 效率值相关性分析
在众多数据中,有一项名为RPM,表示球员的效率值。该数据反映球员在场时对球队比赛获胜的贡献大小,最能反映球员的综合实力。我们可以看一下它与其他数据的相关性。
首先,我们取出几个有用的特征分析相关性,并绘制热力图。
# 2. 数据分析
## 2.1 效率值相关性分析
NBA_1 = NBA.loc[:, ['RPM','AGE','SALARY_MILLIONS','ORB','DRB','TRB','AST','AST','STL','BLK','TOV','PF','POINTS','GP','MPG','ORPM','DRPM']]
NBA_1.head()
然后,使用如下代码计算出相关性表。
# 计算相关性
# 获取两列之间的相关性
corr = NBA_1.corr()
corr
部分运行结果如下图所示:
最后,使用刚才的相关性表,绘制出相关性关系热力图
# 调用热力图绘制相关性关系
plt.figure(figsize=(20,20),dpi=120)
sns.heatmap(corr, square=True, linewidths=0.1, annot=True)
# 保存图像
plt.savefig("./test.png")
# 颜色越深:相关性越弱
# 颜色越浅:相关性越强
运行结果如下图所示:
以上就是Seaborn数据分析NBA球员信息数据集的详细内容,更多关于Seaborn数据分析的资料请关注编程网其它相关文章!
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341