我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python数据分析及可视化(十五)数据分析可视化实战篇(抖音用户数据分析、二手房数据分析)

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python数据分析及可视化(十五)数据分析可视化实战篇(抖音用户数据分析、二手房数据分析)

python数据分析的实战篇,围绕实例的数据展开分析,通过数据操作案例来了解数据分析中的频繁用到的知识内容。

1.理解数据

数据字段含义

了解数据内容,确保数据来源是正常的,安全合法的。理解一下每一个字段的含义,A列是序号ID,不连续,没有多大的意义可以删除掉;B列uid为看视频的用户id;C列user_city为用户所在的城市,用数字来代替;D列为intem_id为作品的ID;E列author_id为发布作品的作者ID;F列item_city为发布视频作者所在的城市;G列channel为观看视频的来源,现在视频的来源不光是在APP上,在其他网站或者视频上都能有视频的推送;H列finish为是否完整浏览了视频作品;I列like为是否为作品点赞;J列music_id为使用的音乐;K列duration_time为作品的时长;L列real_time为作品真实发布的时间;M列H为当前的时间,具体到小时;N列date为发布的日前。
常用的代码 可以直接复制使用

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport pyecharts %matplotlib inline  # 每一行默认输出plt.style.use('ggplot')  # 风格的设置plt.rcParams['font.family'] = 'SimHei'  # 设置中文字体plt.rcParams['axes.unicode_minus'] = False # 坐标轴支持负号

导入数据的时候,数据内容比较多,超出excel或者wps文件的范围时,打开数据就会有缺失。在数据处理的时候,如果处理的数据是几百条到万以内的,excel和wps可以进行相应的操作;分析的数据级别是几千到几十万,超出了excel和wps的表格范围,数据不能正常的显示,所以就要用pandas进行分析;如果数据是以亿级别的,就要用到大数据分析。
在这里插入图片描述
导入数据之后,对数据进行预览,可以看到有100多万条数据,之前的查看信息会显示有数据的数量,如果数据没有缺失值的话,就不再显示数据的数量。可以用describe来统计表中数值的信息,查看有无异常数值,如果表中数据为字符串则不显示。
在这里插入图片描述
在这里插入图片描述

2.数据处理

数据处理,在机器学习中成为数据清洗和特征工程。在探索性的数据分析(EDA)中,用不到算法的话,只需要做数据相应的处理,包含了数据的清洗。
在这里插入图片描述
如果对表格的原数据进行更改,可以在参数里增加inplace=True;如果不再原数据上进行更改,可以把更改的内容重新赋值为原数据的变量名。
在这里插入图片描述

3.分析数据

通过可视化的手段,利用图表来对数据进行分析。在探索型的数据分析(EDA)中经常用可视化来完成,利用图表展示;在验证性的数据分析中,要利用统计学的知识做假设校验,运用算法进行预测,建立模型。
在这里插入图片描述
画图之前要先把需要的x轴和y轴的数据准备好。分析日播放量、日用户量、日作者量、日作品量跟时间有关系,x轴为时间,y轴是播放、用户、作者、作品的信息,可以通过日期进行分组来进行计算。
在这里插入图片描述
在这里插入图片描述
作品数量top50中,数量与播放率、点赞率之间之间的关系;
在这里插入图片描述
在这里插入图片描述

4.结论

4.1分析日播放量、日用户量、日作者量、日作品量跟时间有关系

日播放量、日用户量、日作者量、日作品量随时间的变化保持一样的变化趋势,前期都平稳增长,从10-20到10-29日,出现了剧烈增长,随后又出现了下降的趋势,可能是这个期间平台进行活动,吸引用户去发布作品和观看作品,作品量,作者量,作者量在这个时间内都会出现巨幅增长,活动结束用户就回归到正常的水平。

4.2 数量与播放率、点赞率之间之间的关系

数量与播放率是成正比;作品的数量和点赞率之间没有明显的关系。

用pandas做数据处理,用pyecharts做可视化的图表,分析市面上二手房各项的基本特征以及房源分布的情况,探索二手房背后的规律。

1.导入库、读取数据

常用的数据可以直接理解,专业的数据需要掌握专业的知识,提前了解专业背景。
在这里插入图片描述

查看信息

查看数据统计以及基本信息,楼层、面积、价格、年份列为数值,电梯列有缺失。
在这里插入图片描述

2.数据处理

缺失值

电梯列缺失8257条数据,对于缺失值的处理有删除和填充操作,查看一下电梯列出现的数据,查看电梯列的值的唯一值,为“有电梯”、“无电梯”和NaN,对于不确定的因素,可以填充NaN为第三方的数据,比如填充为“未知”。
在这里插入图片描述
查看数据求朝向的唯一值,发现房屋的朝向有意义相同的值,比如“西南”和“南西”表示同一个方位,可以对数据进行替换,对值进行统一。利用groupby统计各个城区二手房的数量,发现丰台、昌平、朝阳、海淀的二手房屋数量最多。
在这里插入图片描述

数据转换

把数据转换为列表,便于图表的绘制。
在这里插入图片描述

3.可视化分析

3.1 各个城区二手房数量分布地图

把每个区的名字取出来,拼接上字符串“区”,实例化地图类,传入键值对,绘制地图。移动鼠标可以很便捷的查看每个区的房屋数据,拖动左侧的热力图可以使得筛选区域在地图上以不同的颜色进行显示。
在这里插入图片描述

3.2 各个城区二手房的平均价格

对于列名称要直接复制,以防列名称中有空格类的字符,在代码中直接输入会找不到。
在这里插入图片描述
以区域为x轴,房屋的数量和平均价格分别为y轴绘制图表。
在这里插入图片描述
在这里插入图片描述

3.3 二手房价格最高的Top15

在这里插入图片描述
在这里插入图片描述

3.4 二手房的总价与面积的散点图

说明房屋集中在面积400平以下,价格3000万以下。
在这里插入图片描述

3.5 房屋朝向的饼图

大部分房屋都是南北朝向。
在这里插入图片描述
在这里插入图片描述

3.6 装修情况的柱状图和有无电梯的玫瑰图

玫瑰图也就是不规则的圆环图。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.7 二手房楼层分布柱形图

通过数据可以看出 6层的楼房交易量最多。
在这里插入图片描述
在这里插入图片描述

3.8 房屋面积分布柱形图

每套房的面积是连续型的数值,不能进行分组,因为每套房的面积大都不相同,可以利用区间进行面元划分。
在这里插入图片描述
在这里插入图片描述

4. 分析结论

对二手房数据从不同角度进行分析,通过图表可以得出:
每个城区的二手房数量,丰台、昌平、朝阳、海淀四个区域在售的二手房数量是最多的,占总二手房的一半;
从平均售价中可以看出,丰台、昌平、朝阳、海淀的平均售价在800万以上;
二手房房屋的面积大概都在200平左右;约50%的房子都是南北朝向;
通过装修情况可以看出装修的房子比较多,说明自己住的房子出售的比较多;
大多数在售的房屋都是6层;大多数房屋的面积在150平以内。

来源地址:https://blog.csdn.net/hwwaizs/article/details/127780284

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python数据分析及可视化(十五)数据分析可视化实战篇(抖音用户数据分析、二手房数据分析)

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python数据分析绘图可视化实例分析

本篇内容介绍了“python数据分析绘图可视化实例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!前言:数据分析初始阶段,通常都要进行可视
2023-07-02

Python数据可视化举例分析

这篇文章主要介绍“Python数据可视化举例分析”,在日常操作中,相信很多人在Python数据可视化举例分析问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python数据可视化举例分析”的疑惑有所帮助!接下来
2023-06-16

VUE 数据可视化:提升您的数据分析

Vue 数据可视化库为您的数据分析锦上添花,提供交互式且直观的方式将复杂数据转化为可操作的见解。
VUE 数据可视化:提升您的数据分析
2024-03-06

Python数据分析之绘图和可视化的示例分析

小编给大家分享一下Python数据分析之绘图和可视化的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、前言matplotlib是一个用于创建出版质量图表
2023-06-15

Python数据处理及可视化的示例分析

这篇文章主要介绍Python数据处理及可视化的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、NumPy的初步使用表格是数据的一般表示形式,但对于机器来说是不可理解的,也就是无法辨识的数据,所以我们需要对表
2023-06-29

Python疫情数据可视化分析怎么实现

这篇文章主要讲解了“Python疫情数据可视化分析怎么实现”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python疫情数据可视化分析怎么实现”吧!前言本项目主要通过python的matpl
2023-07-02

Python:打造可视化数据分析应用的实战指南!

本文介绍了如何使用Python打造可视化数据分析应用,以及NumPy、Pandas和Matplotlib这些常用模块的使用方法和代码案例。

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录