我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python层次聚类怎么应用

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python层次聚类怎么应用

本文小编为大家详细介绍“Python层次聚类怎么应用”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python层次聚类怎么应用”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。

层次聚类和K-means有什么不同?

K-means 工作原理可以简要概述为:

  • 决定簇数(k)

  • 从数据中随机选取 k 个点作为质心

  • 将所有点分配到最近的聚类质心

  • 计算新形成的簇的质心

  • 重复步骤 3 和 4

这是一个迭代过程,直到新形成的簇的质心不变,或者达到最大迭代次数。

但是 K-means 是存在一些缺点的,我们必须在算法开始前就决定簇数 K 的数量,但实际我们并不知道应该有多少个簇,所以一般都是根据自己的理解先设定一个值,这就可能导致我们的理解和实际情况存在一些偏差。

层次聚类完全不同,它不需要我们开始的时候指定簇数,而是先完整的形成整个层次聚类后,通过决定合适的距离,自动就可以找到对应的簇数和聚类。

什么是层次聚类?

下面我们由浅及深的介绍什么是层次聚类,先来一个简单的例子。

假设我们有以下几点,我们想将它们分组:

Python层次聚类怎么应用

我们可以将这些点中的每一个分配给一个单独的簇,就是4个簇(4种颜色):

Python层次聚类怎么应用

然后基于这些簇的相似性(距离),将最相似的(距离最近的)点组合在一起并重复这个过程,直到只剩下一个集群:

Python层次聚类怎么应用

上面本质上就是在构建一个层次结构。先了解到这里,后面我们详细介绍它的分层步骤。

层次聚类的类型

主要有两种类型的层次聚类:

  • 凝聚层次聚类

  • 分裂层次聚类

凝聚层次聚类

先让所有点分别成为一个单独的簇,然后通过相似性不断组合,直到最后只有一个簇为止,这就是凝聚层次聚类的过程,和我们上面刚刚说的一致。

分裂层次聚类

分裂层次聚类正好反过来,它是从单个集群开始逐步分裂,直到无法分裂,即每个点都是一个簇。

所以无论是 10、100、1000 个数据点都不重要,这些点在开始的时候都属于同一个簇:

Python层次聚类怎么应用

现在,在每次迭代中拆分簇中相隔最远的两点,并重复这个过程,直到每个簇只包含一个点:

Python层次聚类怎么应用

上面的过程就是分裂层次聚类。

执行层次聚类的步骤

上面已经说了层次聚类的大概过程,那关键的来了,如何确定点和点的相似性呢?

这是聚类中最重要的问题之一了,一般计算相似度的方法是:计算这些簇的质心之间的距离。距离最小的点称为相似点,我们可以合并它们,也可以将其称为基于距离的算法。

另外在层次聚类中,还有一个称为邻近矩阵的概念,它存储了每个点之间的距离。下面我们通过一个例子来理解如何计算相似度、邻近矩阵、以及层次聚类的具体步骤。

案例介绍

假设一位老师想要将学生分成不同的组。现在有每个学生在作业中的分数,想根据这些分数将他们分成几组。关于拥有多少组,这里没有固定的目标。由于老师不知道应该将哪种类型的学生分配到哪个组,因此不能作为监督学习问题来解决。下面,我们将尝试应用层次聚类将学生分成不同的组。

下面是个5名学生的成绩:

Python层次聚类怎么应用

创建邻近矩阵

首先,我们要创建一个邻近矩阵,它储存了每个点两两之间的距离,因此可以得到一个形状为 n X n 的方阵。

这个案例中,可以得到以下 5 x 5 的邻近矩阵:

Python层次聚类怎么应用

矩阵里有两点需要注意下:

  • 矩阵的对角元素始终为 0,因为点与其自身的距离始终为 0

  • 使用欧几里得距离公式来计算非对角元素的距离

比如,我们要计算点 1 和 2 之间的距离,计算公式为:

Python层次聚类怎么应用

同理,按此计算方法完成后填充邻近矩阵其余元素。

执行层次聚类

这里使用凝聚层次聚类来实现。

步骤 1:首先,我们将所有点分配成单个簇:

Python层次聚类怎么应用

这里不同的颜色代表不同的簇,我们数据中的 5 个点,即有 5 个不同的簇。

步骤2:接下来,我们需要查找邻近矩阵中的最小距离并合并距离最小的点。然后我们更新邻近矩阵:

Python层次聚类怎么应用

最小距离是 3,因此我们将合并点 1 和 2:

Python层次聚类怎么应用

让我们看看更新的集群并相应地更新邻近矩阵:

Python层次聚类怎么应用

更新之后,我们取了1、2 两个点中值 (7, 10) 最大的来替换这个簇的值。当然除了最大值之外,我们还可以取最小值或平均值。然后,我们将再次计算这些簇的邻近矩阵:

Python层次聚类怎么应用

第 3 步:重复第 2 步,直到只剩下一个簇。

重复所有的步骤后,我们将得到如下所示的合并的聚类:

Python层次聚类怎么应用

这就是凝聚层次聚类的工作原理。但问题是我们仍然不知道该分几组?是2、3、还是4组呢?

下面开始介绍如何选择聚类数。

如何选择聚类数?

为了获得层次聚类的簇数,我们使用了一个概念,叫作树状图。

通过树状图,我们可以更方便的选出聚类的簇数。

回到上面的例子。当我们合并两个簇时,树状图会相应地记录这些簇之间的距离并以图形形式表示。下面这个是树状图的原始状态,横坐标记录了每个点的标记,纵轴记录了点和点之间的距离:

Python层次聚类怎么应用

当合并两个簇时,将会在树状图中连接起来,连接的高度就是点之间的距离。下面是我们刚刚层次聚类的过程。

Python层次聚类怎么应用

然后开始对上面的过程进行树状图的绘制。从合并样本 1 和 2 开始,这两个样本之间的距离为 3。

Python层次聚类怎么应用

可以看到已经合并了 1 和 2。垂直线代表 1 和 2 的距离。同理,按照层次聚类过程绘制合并簇类的所有步骤,最后得到了这样的树状图:

Python层次聚类怎么应用

通过树状图,我们可以清楚地形象化层次聚类的步骤。树状图中垂直线的距离越远代表簇之间的距离越大。

有了这个树状图,我们决定簇类数就方便多了。

现在我们可以设置一个阈值距离,绘制一条水平线。比如我们将阈值设置为 12,并绘制一条水平线,如下:

Python层次聚类怎么应用

从交点中可以看到,聚类的数量就是与阈值水平线与垂直线相交的数量(红线与 2 条垂直线相交,我们将有 2 个簇)。与横坐标相对应的,一个簇将有一个样本集合为 (1,2,4),另一个集群将有一个样本集合 (3,5)。

这样,我们就通过树状图解决了分层聚类中要决定聚类的数量。

Python代码实战案例

上面是理论基础,有点数学基础都能看懂。下面介绍下在如何用代码Python来实现这一过程。这里拿一个客户细分的数据来展示一下。

这个数据来源于UCI 机器学习库。我们的目的是根据批发分销商的客户在不同产品类别(如牛奶、杂货、地区等)上的年度支出,对他们进行细分。

首先对数据进行一个标准化,为了让所有数据在同一个维度便于计算,然后应用层次聚类来细分客户。

from sklearn.preprocessing import normalizedata_scaled = normalize(data)data_scaled = pd.DataFrame(data_scaled, columns=data.columns)import scipy.cluster.hierarchy as shcplt.figure(figsize=(10, 7))plt.title("Dendrograms")dend = shc.dendrogram(shc.linkage(data_scaled, method='ward'))

Python层次聚类怎么应用

x 轴包含了所有样本,y 轴代表这些样本之间的距离。距离最大的垂直线是蓝线,假如我们决定要以阈值 6 切割树状图:

plt.figure(figsize=(10, 7))plt.title("Dendrograms")dend = shc.dendrogram(shc.linkage(data_scaled, method='ward'))plt.axhline(y=6, color='r', linestyle='--')

Python层次聚类怎么应用

现在我们有两个簇了,我们要对这 2 个簇应用层次聚类:

from sklearn.cluster import AgglomerativeClusteringcluster = AgglomerativeClustering(n_clusters=2, affinity='euclidean', linkage='ward')cluster.fit_predict(data_scaled)

Python层次聚类怎么应用

由于我们定义了 2 个簇,因此我们可以在输出中看到 0 和 1 的值。0 代表属于第一个簇的点,1 代表属于第二个簇的点。

plt.figure(figsize=(10, 7))plt.scatter(data_scaled['Milk'], data_scaled['Grocery'], c=cluster.labels_)

Python层次聚类怎么应用

读到这里,这篇“Python层次聚类怎么应用”文章已经介绍完毕,想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会,如果想了解更多相关内容的文章,欢迎关注编程网行业资讯频道。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python层次聚类怎么应用

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python层次聚类怎么应用

本文小编为大家详细介绍“Python层次聚类怎么应用”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python层次聚类怎么应用”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。层次聚类和K-means有什么不同?K
2023-07-06

Python聚类算法之凝聚层次聚类实例分析

本文实例讲述了Python聚类算法之凝聚层次聚类。分享给大家供大家参考,具体如下: 凝聚层次聚类:所谓凝聚的,指的是该算法初始时,将每个点作为一个簇,每一步合并两个最接近的簇。另外即使到最后,对于噪音点或是离群点也往往还是各占一簇的,除非过
2022-06-04

python实现层次聚类的方法是什么

本篇内容介绍了“python实现层次聚类的方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!层次聚类算法顾名思义,层次聚类就是一层一层
2023-06-25

python聚类算法怎么选择

本篇内容介绍了“python聚类算法怎么选择”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!说明1、如果数据集是高维度的,选择谱聚类是子空间的
2023-06-20

怎么用Python进行系统聚类分析

怎么用Python进行系统聚类分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。在进行机器学习时,我们往往要对数据进行聚类分析,聚类,说白了就是把相似的样品点/
2023-06-16

Python怎么使用树状图实现可视化聚类

今天小编给大家分享一下Python怎么使用树状图实现可视化聚类的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。树状图树状图是显
2023-07-05

怎么使用Mahout进行空间聚类

Mahout是一个用于大规模机器学习的框架,其中包含了许多用于空间聚类的算法。要使用Mahout进行空间聚类,可以按照以下步骤进行:准备数据:首先需要准备用于空间聚类的数据集。数据集应该是一个包含特征向量的数据集,每个特征向量表示一个数据点
怎么使用Mahout进行空间聚类
2024-05-22

Python中怎么利用DBSCAN实现一个密度聚类算法

Python中怎么利用DBSCAN实现一个密度聚类算法,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。基于密度这点有什么好处呢?我们知道kmeans聚类算法只能处理球形的簇,也就
2023-06-16

Scala混入多重继承、类型层次和集合怎么实现

本篇内容主要讲解“Scala混入多重继承、类型层次和集合怎么实现”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Scala混入多重继承、类型层次和集合怎么实现”吧!用特征来实现混入(mix-in)
2023-06-17

Python中聚类技术的应用:数据分析方法及操作指南

数据聚类是一种常用的数据分析技术,可以帮助我们对大量的数据进行分组和分析,从而获得更加深入的洞察和认识。在Python中,我们可以使用各种聚类算法来进行数据聚类,例如K-Means、层次聚类、DBSCAN等。本文将介绍如何使用Python中
Python中聚类技术的应用:数据分析方法及操作指南
2024-01-22

Python 中怎么实现一个k-means 均值聚类算法

Python 中怎么实现一个k-means 均值聚类算法,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。scikti-learn 将机器学习分为4个领域,分别是分
2023-06-02

python fire怎么在函数和类中应用

小编给大家分享一下python fire怎么在函数和类中应用,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!python是什么意思Python是一种跨平台的、具有解
2023-06-14

Python怎么实现类装饰器及应用

本篇内容主要讲解“Python怎么实现类装饰器及应用”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python怎么实现类装饰器及应用”吧!示例Python中的装饰器既可以是函数也可以是类。在前几
2023-07-06

Java中怎么设计应用层网关

Java中怎么设计应用层网关,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Java 应用层网关的必要性我们的 Java 网关分为应用层网关和业务嵌入式网关两部分
2023-06-16

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录