我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python数据分析案例03——天气K均值聚类分析

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python数据分析案例03——天气K均值聚类分析

聚类常用的算法肯定是K均值聚类了,本次案例采用陕西的十个地区的天气数据,构建特征,进行聚类分析。

首先数据都装在‘天气数据’这个文件夹里面,如图:

打开其中一个excel,长这个样子

 

 下面开始数据处理


数据预处理 

导入包

import osimport matplotlib.pyplot as pltimport seaborn as snsimport numpy as npimport pandas as pdimport datetime as dtimport re#from sklearn.preprocessing import MinMaxScaler%matplotlib inlinepd.options.display.float_format = '{:,.4f}'.formatnp.set_printoptions(precision=4)plt.rcParams ['font.sans-serif'] ='SimHei'               #显示中文plt.rcParams ['axes.unicode_minus']=False               #显示负号

获取文件和地区名称

file_name=os.listdir(f'./天气数据')print(file_name)region_name=[i[:2] for i in file_name]region_name

 定义一些函数,用来处理数据

def date_transform(x) :    a= x.split(' ')[0]    a = pd.to_datetime(a, format='%Y-%m-%d')    return adef C_check(C):    a=C.split('℃')    return int(a[0])def tianqi_check1(txt):    if '转' in txt:        a=re.findall('\w{1,5}转',txt)        a=a[0].split('转')        a=a[0]    elif '~' in txt:        a=re.findall('\w{1,5}~',txt)        a=a[0].split('~')        a=a[0]    else:        a=txt    return adef tianqi_check2(txt):    if '到' in txt:        a=re.findall('到\w{1,5}',txt)        a=a[0].split('到')        a=a[1]    else:        a=txt    return adf_最高气温=pd.DataFrame()df_最低气温=pd.DataFrame()df_天气=pd.DataFrame()dic_天气={'晴':0,'晴到多云':0.5,'晴间多云':0.5,'局部多云':0.5,'多云':1,'少云':1.5,'阴':2,'阴天':2,'雾':2.5,'霾':2.5,'小雨':3,'雨':3,'阴到小雨':2.5,            '小到中雨':3.5,'小雨到中雨':3.5,'阵雨':3.5,'中雨':4,'小雨到大雨':4,'雷阵雨':4,'雷雨':4,'中到大雨':4.5,'大雨':5,'大到暴雨':5.5,            '暴雨':6,'暴风雨':6.5,'小雪':7,'雨夹雪 ':7,'雪':7,'中雪':8,'大雪':9,'浮尘':2.5,'扬沙':2.5,'风':2.5}

开始读取和处理

for i,f in enumerate(file_name):    #print(i)    file_path = f'./天气数据/{f}'    data=pd.read_excel(file_path,usecols=['日期','最高气温','最低气温','天气'])    data['日期']=data['日期'].apply(date_transform)    data['最高气温']=data['最高气温'].apply(C_check)    data['最低气温']=data['最低气温'].apply(C_check)    data['天气']=data['天气'].astype(str).apply(tianqi_check1)    data['天气']=data['天气'].astype(str).apply(tianqi_check2)    data.loc[:,'天气']=data['天气'].map(dic_天气)    data['天气'].fillna(data['天气'].mean)    data=data.set_index('日期').resample('M').mean()    #print(len(data))    df_最高气温[region_name[i]]=data['最高气温']    df_最低气温[region_name[i]]=data['最低气温']    df_天气[region_name[i]]=data['天气']

最后是形成了三个数据框,最高温和最低温,还有天气情况(比如下雨还是晴天等等),天气情况我用map进行了映射,都变成了数值型变量。


描述性统计

df_最高气温.plot(title='各地区每月最高温变化图',figsize=(14,5),xlabel='日期',ylabel='最高温')

 

df_最低气温.plot(title='各地区每月最低温变化图',figsize=(14,5),xlabel='日期',ylabel='最低温')

 

df_天气.plot(title='各地区每月天气变化图',figsize=(14,5),xlabel='日期',ylabel='天气')

 都具有很明显的周期性,天气因为是自己映射的数值型数据,所以有点杂乱。

然后画出最高温的箱线图:

column = df_最高气温.columns.tolist() # 列表头fig = plt.figure(figsize=(20, 8), dpi=128)  # 指定绘图对象宽度和高度for i in range(len(column)):    plt.subplot(2,5, i + 1)  # 2行5列子图    sns.boxplot(data=df_最高气温[column[i]], orient="v",width=0.5)  # 箱式图    plt.ylabel(column[i], fontsize=16)    plt.title(f'{region_name[i]}每月最高温箱线图',fontsize=16)plt.tight_layout()plt.show()

 

 最低温和天气也是一样画,数据框名称改一下就行。

下面画出最低温的核密度图(同理最高温和天气也是一样的)

fig = plt.figure(figsize=(20, 8), dpi=128)  # 指定绘图对象宽度和高度for i in range(len(column)):    plt.subplot(2,5, i + 1)  # 2行5列子图    ax = sns.kdeplot(data=df_最低气温[column[i]],color='blue',shade= True)    plt.ylabel(column[i], fontsize=16)    plt.title(f'{region_name[i]}每月最低温核密度图',fontsize=16)plt.tight_layout()plt.show()

 画出天气的相关性热力图

fig = plt.figure(figsize=(8, 8), dpi=128) corr= sns.heatmap(df_天气[column].corr(),annot=True,square=True)

最高温和最低温也是一样,改一下数据框名称就行。可以看到哪些地区的天气相关性高


 K均值聚类

因为本次构建了三个特征,可以进行三次K均值聚类,我们可以比较一下聚类的结果,首先使用最高温进行聚类:

最高温的聚类

from sklearn.cluster import KMeans kmeans_model = KMeans(n_clusters=3, random_state=123, n_init=20)kmeans_model.fit(df_最高气温.T)kmeans_model.inertia_   #组内平方和# kmeans_cc=kmeans_model.cluster_centers_   # 聚类中心# kmeans_cckmeans_labels = kmeans_model.labels_   # 样本的类别标签kmeans_labels pd.Series(kmeans_labels).value_counts()   # 统计不同类别样本的数目

 映射一下类别的数值

dic_rusult={}for i in range(10):    dic_rusult[df_最高气温.T.index[i]]=kmeans_labels[i]dic_rusult

 统计一下,打印结果

第一类地区=[]第二类地区=[]第三类地区=[]for k,v in dic_rusult.items():    if v==0:        第一类地区.append(k)    elif v==1:        第二类地区.append(k)    elif v==2:        第三类地区.append(k)print(f'从最高气温来看的聚类的结果,将地区分为三个地区,\n第一个地区为:{第一类地区},\n第二个地区为:{第二类地区},\n第三个地区为:{第三类地区}')

 可以去地图上看看,聚类的结果还是很有道理的,聚类出来的地区都是挨得很近的地方。


最低温度K均值聚类

kmeans_model = KMeans(n_clusters=3, random_state=123, n_init=20)kmeans_model.fit(df_最低气温.T)kmeans_labels = kmeans_model.labels_   # 样本的类别标签kmeans_labels pd.Series(kmeans_labels).value_counts()   # 统计不同类别样本的数目dic_rusult2={}for i in range(10):    dic_rusult2[df_最低气温.T.index[i]]=kmeans_labels[i]dic_rusult2第一类地区=[]第二类地区=[]第三类地区=[]for k,v in dic_rusult2.items():    if v==2:        第一类地区.append(k)    elif v==1:        第二类地区.append(k)    elif v==0:        第三类地区.append(k)print(f'从最低气温来看的聚类的结果,将地区分为三个地区,\n第一个地区为:{第一类地区},\n第二个地区为:{第二类地区},\n第三个地区为:{第三类地区}')

 和最高温的聚类结果差不多

第一个地区对应的关中

第二个地区对应的陕北

第三个地区对应的陕南


天气K均值聚类

kmeans_model = KMeans(n_clusters=3, random_state=123, n_init=20)kmeans_model.fit(df_天气.T)kmeans_labels = kmeans_model.labels_   # 样本的类别标签pd.Series(kmeans_labels).value_counts()   # 统计不同类别样本的数目 dic_rusult3={}for i in range(10):    dic_rusult3[df_天气.T.index[i]]=kmeans_labels[i]dic_rusult3第一类地区=[]第二类地区=[]第三类地区=[]for k,v in dic_rusult3.items():    if v==1:        第一类地区.append(k)    elif v==2:        第二类地区.append(k)    elif v==0:        第三类地区.append(k)print(f'从天气来看的聚类的结果,将地区分为三个地区,\n第一个地区为:{第一类地区},\n第二个地区为:{第二类地区},\n第三个地区为:{第三类地区}')

 天气的效果和气温差不多。

第一个地区对应的关中

第二个地区对应的陕北

第三个地区对应的陕南

说明地理位置近的地区的天气更加相似(算法说的)

来源地址:https://blog.csdn.net/weixin_46277779/article/details/126401866

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python数据分析案例03——天气K均值聚类分析

下载Word文档到电脑,方便收藏和打印~

下载Word文档

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录