我的编程空间,编程开发者的网络收藏夹
学习永远不晚

数据分析案例-电影数据可视化分析

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

数据分析案例-电影数据可视化分析

数据介绍

数据为2011-2021电影数据

可视化分析

首先导入本次项目需要的包和数据

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom pyecharts.charts import Piefrom pyecharts import options as  opts from pyecharts.globals import ThemeTypesns.set_style('ticks')import warningswarnings.filterwarnings('ignore') # 忽略警告plt.rcParams['font.sans-serif'] = ['SimHei'] #解决中文显示plt.rcParams['axes.unicode_minus'] = False   #解决符号无法显示data = pd.read_excel('data.xlsx')data.head()

数据预处理

data.dropna(inplace=True)data.reset_index(drop=True,inplace=True)data.drop_duplicates(['电影名称'],inplace=True)data['年份'] = data['上映时间'].apply(lambda x:x.split('-')[0])# 将首周票房中的--数据删除data[data['首周票房']=='--'].indexdata.drop(index=data[data['首周票房']=='--'].index,inplace=True)data.reset_index(drop=True,inplace=True)# 将首周票房亿单位转化为万,且只保留数字data['首周票房'] = data['首周票房'].apply(lambda x: float(x[:-1])*1000 if x[-1] == '亿' else float(x[:-1]))# 将累计票房亿单位转化为万,且只保留数字data['累计票房'] = data['累计票房'].apply(lambda x: float(x[:-1])*1000 if x[-1] == '亿' else float(x[:-1]))

 可视化

# 分析各个年份的总票房df1 = data.groupby('年份').sum()['累计票房']plt.figure(figsize=(10,8))plt.title('各个年份的总票房',fontsize=14)plt.xlabel('年份',fontsize=14)plt.ylabel('总票房(万元)',fontsize=14)plt.bar(x=df1.index,height=df1.values)plt.show()

# 分析各个年份的电影比例result_list = [(i,j) for i,j in zip(df1.index.to_list(),df1.values.tolist())]a = Pie(init_opts=opts.InitOpts(theme = ThemeType.DARK))a.add(series_name='年份',        data_pair=result_list,        rosetype='radius',        radius='70%',        )a.set_global_opts(title_opts=opts.TitleOpts(title="各个年份的电影比例",                    pos_top=50))a.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} 
{b}:{c} ({d}%)'))a.render_notebook()

 

# 分析各个年份的平均票价df2 = data.groupby('年份').mean()['平均票价']plt.figure(figsize=(10,8))plt.title('各个年份的平均票价',fontsize=14)plt.xlabel('年份',fontsize=14)plt.ylabel('平均票价(元)',fontsize=14)plt.plot(df2.index,df2.values)plt.show()

 

# 分析电影片长的分布sns.displot(data['片长'],bins=30,kde=True)

# 分析电影平均票价的分布sns.displot(data['平均票价'],kde=True)

 

# 分析导演喜爱度的分布sns.displot(data['导演喜爱度'],kde=True)

 

df3 = data['来源'].apply(lambda x:x.split(',')[0]).value_counts().head()# 各个地区的电影比例a1 = Pie(init_opts=opts.InitOpts(theme = ThemeType.CHALK))a1.add(series_name='地区',        data_pair=[list(z) for z in zip(df3.index.to_list(),df3.values.tolist())],        rosetype='radius',        radius='60%',        )a1.set_global_opts(title_opts=opts.TitleOpts(title="各个地区的电影比例",                    pos_left='center',                    pos_top=30))a1.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} 
{b}:{c} ({d}%)'))a1.render_notebook()

# 分析拍电影数前五的发行公司df4 = data['发行公司'].value_counts().head().plot(kind='barh')

 

# 分析片长和评分的关系plt.figure(figsize=(10,8))plt.scatter(data['片长'],data['评分'])plt.title('片长和评分的关系',fontsize=15)plt.xlabel('片长',fontsize=15)plt.ylabel('评分',fontsize=15)plt.show()

 

# 分析各个特征之间的相关系数fig = plt.figure(figsize=(18,18))sns.heatmap(data.corr(),vmax=1,annot=True,linewidths=0.5,cbar=False,cmap='YlGnBu',annot_kws={'fontsize':25})plt.xticks(fontsize=20)plt.yticks(fontsize=20)plt.title('各个特征之间的相关系数',fontsize=20)plt.show()

# 分析年度总票房走势df1 = data.groupby('年份').sum()['累计票房']plt.figure(figsize=(10,8))plt.title('年度总票房走势',fontsize=14)plt.xlabel('年份',fontsize=14)plt.ylabel('总票房(万元)',fontsize=14)plt.plot(df1.index,df1.values)plt.show()

# 分析哪种制片制式最受欢迎from pyecharts.charts import WordCloudimport collectionsresult_list = []for i in data['制片制式'].values:    word_list = str(i).split('/')    for j in word_list:        result_list.append(j)result_listword_counts = collections.Counter(result_list)word_counts_top = word_counts.most_common(50)print(word_counts_top)wc = WordCloud()wc.add('',word_counts_top)wc.render_notebook()

 

# 分析各种制式制片的比例a2 = Pie(init_opts=opts.InitOpts(theme = ThemeType.CHALK))a2.add(series_name='类型',        data_pair=word_counts_top,        radius='60%',        )a2.set_global_opts(title_opts=opts.TitleOpts(title="各种制式制片的比例",                    pos_top=50))a2.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} 
{b}:{c} ({d}%)'))a2.render_notebook()

 

# 分析各种类型的电影出现的次数from pyecharts.charts import WordCloudimport collectionsresult_list = []for i in data['电影类型'].values:    word_list = str(i).split(' / ')    for j in word_list:        result_list.append(j)result_listword_counts = collections.Counter(result_list)# 词频统计:获取前100最高频的词word_counts_top = word_counts.most_common(100)print(word_counts_top)wc = WordCloud()wc.add('',word_counts_top)wc.render_notebook()

 

# 分析各种类型电影的比例word_counts_top = word_counts.most_common(10)a3 = Pie(init_opts=opts.InitOpts(theme = ThemeType.MACARONS))a3.add(series_name='类型',        data_pair=word_counts_top,        rosetype='radius',        radius='60%',        )a3.set_global_opts(title_opts=opts.TitleOpts(title="各种类型电影的比例",                        pos_left='center',                    pos_top=50))a3.set_series_opts(tooltip_opts=opts.TooltipOpts(trigger='item',formatter='{a} 
{b}:{c} ({d}%)'))a3.render_notebook()

以下是心得体会:

通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。

在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。首先,它锻炼了我做项目的潜力,提高了独立思考问题、自我动手操作的潜力,在工作的过程中,复习了以前学习过的知识,并掌握了一些应用知识的技巧等

在此次实战中,我还学会了下面几点工作学习心态:

1)继续学习,不断提升理论涵养。在信息时代,学习是不断地汲取新信息,获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后,我会用心响应单位号召,结合工作实际,不断学习理论、业务知识和社会知识,用先进的理论武装头脑,用精良的业务知识提升潜力,以广博的社会知识拓展视野。

2)努力实践,自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值,也只有将理论付诸于实践才能使理论得以检验。同样,一个人的价值也是透过实践活动来实现的,也只有透过实践才能锻炼人的品质,彰显人的意志。

3)提高工作用心性和主动性。实习,是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土,也分明感受到了沉甸甸的职责。在今后的工作和生活中,我将继续学习,深入实践,不断提升自我,努力创造业绩,继续创造更多的价值。

这次Python实战不仅仅使我学到了知识,丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中,为实现理想而努力。

在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。首先,它锻炼了我做项目的潜力,提高了独立思考问题、自我动手操作的潜力,在工作的过程中,复习了以前学习过的知识,并掌握了一些应用知识的技巧等

1)继续学习,不断提升理论涵养。在信息时代,学习是不断地汲取新信息,获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后,我会用心响应单位号召,结合工作实际,不断学习理论、业务知识和社会知识,用先进的理论武装头脑,用精良的业务知识提升潜力,以广博的社会知识拓展视野。

2)努力实践,自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值,也只有将理论付诸于实践才能使理论得以检验。同样,一个人的价值也是透过实践活动来实现的,也只有透过实践才能锻炼人的品质,彰显人的意志。

3)提高工作用心性和主动性。实习,是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土,也分明感受到了沉甸甸的职责。在今后的工作和生活中,我将继续学习,深入实践,不断提升自我,努力创造业绩,继续创造更多的价值。

这次Python实战不仅仅使我学到了知识,丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中,为实现理想而努力。

来源地址:https://blog.csdn.net/m0_64336780/article/details/125242138

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

数据分析案例-电影数据可视化分析

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python数据可视化举例分析

这篇文章主要介绍“Python数据可视化举例分析”,在日常操作中,相信很多人在Python数据可视化举例分析问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python数据可视化举例分析”的疑惑有所帮助!接下来
2023-06-16

python数据分析绘图可视化实例分析

本篇内容介绍了“python数据分析绘图可视化实例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!前言:数据分析初始阶段,通常都要进行可视
2023-07-02

python实现股票历史数据可视化分析案例

目录1 数据预处理1.1 股票历史数据csv文件读取1.2 关键数据——在csv文件中选择性提取“列”1.3 数据类型转换1.4 数据按列提取并累加性存入列表2 pyecharts实现数据可视化2.1 导入库2.2 初始化画布2.3 根据需
2022-06-03

Python数据分析之绘图和可视化的示例分析

小编给大家分享一下Python数据分析之绘图和可视化的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、前言matplotlib是一个用于创建出版质量图表
2023-06-15

探索性数据分析(EDA)之数据可视化案例:附数据集和源码

在这篇文章中,我们使用数据可视化在数据集上做了一系列的实验和测试,基于各个变量对数据集做了一些分析,比如单变量分析和可视化(条形图、饼图、折线图、直方图);热力图可看作是双变量分析,因为它呈现了两两变量之间的相关性。
数据分析EDA2024-11-30

Python数据处理及可视化的示例分析

这篇文章主要介绍Python数据处理及可视化的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、NumPy的初步使用表格是数据的一般表示形式,但对于机器来说是不可理解的,也就是无法辨识的数据,所以我们需要对表
2023-06-29

VUE 数据可视化:提升您的数据分析

Vue 数据可视化库为您的数据分析锦上添花,提供交互式且直观的方式将复杂数据转化为可操作的见解。
VUE 数据可视化:提升您的数据分析
2024-03-06

Golang在数据分析和可视化的应用示例

go广泛用于数据分析和可视化。示例包括:基础设施监控:使用go和telegraf、prometheus构建监控应用程序。机器学习:利用go和tensorflow或pytorch构建和训练模型。数据可视化:使用plotly、go-echart
Golang在数据分析和可视化的应用示例
2024-05-12

数据分析中十种常见的可视化图例

漏斗图(funnel chart)类似于漏斗的形状,其中每个部分逐渐变窄。分段垂直排列,以显示层次结构。在漏斗图中,每个分段对应于顺序过程中的一个步骤或阶段。它们说明了数据点在各个阶段中的进展。

六种数据分析的基本可视化

在本文中,我们将学习如何创建6种基本但常用的数据可视化类型。我还写了一篇文章,解释了如何使用Seaborn创建这些可视化。

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录