我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python如何实现聚类K-means算法

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python如何实现聚类K-means算法

今天小编给大家分享一下Python如何实现聚类K-means算法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。

K-means(K均值)算法是最简单的一种聚类算法,它期望最小化平方误差

Python如何实现聚类K-means算法

:为避免运行时间过长,通常设置一个最大运行轮数或最小调整幅度阈值,若到达最大轮数或调整幅度小于阈值,则停止运行。

下面我们用python来实现一下K-means算法:我们先尝试手动实现这个算法,再用sklearn库中的KMeans类来实现。数据我们采用《机器学习》的西瓜数据(P202表9.1):

# 下面的内容保存在 melons.txt 中# 第一列为西瓜的密度;第二列为西瓜的含糖率。我们要把这30个西瓜分为3类0.697 0.4600.774 0.3760.634 0.2640.608 0.3180.556 0.2150.403 0.2370.481 0.1490.437 0.2110.666 0.0910.243 0.2670.245 0.0570.343 0.0990.639 0.1610.657 0.1980.360 0.3700.593 0.0420.719 0.1030.359 0.1880.339 0.2410.282 0.2570.748 0.2320.714 0.3460.483 0.3120.478 0.4370.525 0.3690.751 0.4890.532 0.4720.473 0.3760.725 0.4450.446 0.459

手动实现

我们用到的库有matplotlibnumpy,如果没有需要先用pip安装一下。

import randomimport numpy as npimport matplotlib.pyplot as plt

下面定义一些数据:

k = 3 # 要分的簇数rnd = 0 # 轮次,用于控制迭代次数(见上文)ROUND_LIMIT = 100 # 轮次的上限THRESHOLD = 1e-10 # 单轮改变距离的阈值,若改变幅度小于该阈值,算法终止melons = [] # 西瓜的列表clusters = [] # 簇的列表,clusters[i]表示第i簇包含的西瓜

从melons.txt读取数据,保存在列表中:

f = open('melons.txt', 'r')for line in f:# 把字符串转化为numpy中的float64类型    melons.append(np.array(line.split(' '), dtype = np.string_).astype(np.float64))

从 m m m个数据中随机挑选出 k k k个,对应上面算法的第 1 1 1行:

# random的sample函数从列表中随机挑选出k个样本(不重复)。我们在这里把这些样本作为均值向量mean_vectors = random.sample(melons, k)

下面是算法的主要部分。

# 这个while对应上面算法的2-17行while True:    rnd += 1 # 轮次增加    change = 0 # 把改变幅度重置为0# 清空对簇的划分,对应上面算法的第3行    clusters = []    for i in range(k):        clusters.append([])    # 这个for对应上面算法的4-8行    for melon in melons:    '''    argmin 函数找出容器中最小的下标,在这里这个目标容器是    list(map(lambda vec: np.linalg.norm(melon - vec, ord = 2), mean_vectors)),    它表示melon与mean_vectors中所有向量的距离列表。    (numpy.linalg.norm计算向量的范数,ord = 2即欧几里得范数,或模长)    '''        c = np.argmin(            list(map( lambda vec: np.linalg.norm(melon - vec, ord = 2), mean_vectors))        )        clusters[c].append(melon)# 这个for对应上面算法的9-16行    for i in range(k):    # 求每个簇的新均值向量        new_vector = np.zeros((1,2))        for melon in clusters[i]:            new_vector += melon        new_vector /= len(clusters[i])        # 累加改变幅度并更新均值向量        change += np.linalg.norm(mean_vectors[i] - new_vector, ord = 2)        mean_vectors[i] = new_vector# 若超过设定的轮次或者变化幅度<预先设定的阈值,结束算法    if rnd > ROUND_LIMIT or change < THRESHOLD:        breakprint('最终迭代%d轮'%rnd)

最后我们绘图来观察一下划分的结果:

colors = ['red', 'green', 'blue']# 每个簇换一下颜色,同时迭代簇和颜色两个列表for i, col in zip(range(k), colors):    for melon in clusters[i]:    # 绘制散点图        plt.scatter(melon[0], melon[1], color = col)plt.show()

划分结果(由于最开始的 k k k个均值向量随机选取,每次划分的结果可能会不同):

Python如何实现聚类K-means算法

完整代码:

import randomimport numpy as npimport matplotlib.pyplot as pltk = 3rnd = 0ROUND_LIMIT = 10THRESHOLD = 1e-10melons = []clusters = []f = open('melons.txt', 'r')for line in f:    melons.append(np.array(line.split(' '), dtype = np.string_).astype(np.float64))mean_vectors = random.sample(melons, k)while True:    rnd += 1    change = 0    clusters = []    for i in range(k):        clusters.append([])    for melon in melons:        c = np.argmin(            list(map( lambda vec: np.linalg.norm(melon - vec, ord = 2), mean_vectors))        )        clusters[c].append(melon)    for i in range(k):        new_vector = np.zeros((1,2))        for melon in clusters[i]:            new_vector += melon        new_vector /= len(clusters[i])        change += np.linalg.norm(mean_vectors[i] - new_vector, ord = 2)        mean_vectors[i] = new_vector    if rnd > ROUND_LIMIT or change < THRESHOLD:        breakprint('最终迭代%d轮'%rnd)colors = ['red', 'green', 'blue']for i, col in zip(range(k), colors):    for melon in clusters[i]:        plt.scatter(melon[0], melon[1], color = col)plt.show()

sklearn库中的KMeans

这种经典算法显然不需要我们反复地造轮子,被广泛使用的python机器学习库sklearn已经提供了该算法的实现。sklearn的官方文档中给了我们一个示例:

>>> from sklearn.cluster import KMeans>>> import numpy as np>>> X = np.array([[1, 2], [1, 4], [1, 0],...               [10, 2], [10, 4], [10, 0]])>>> kmeans = KMeans(n_clusters=2, random_state=0).fit(X)>>> kmeans.labels_array([1, 1, 1, 0, 0, 0], dtype=int32)>>> kmeans.predict([[0, 0], [12, 3]])array([1, 0], dtype=int32)>>> kmeans.cluster_centers_array([[10.,  2.],       [ 1.,  2.]])

可以看出,X即要聚类的数据(1,2),(1,4),(1,0)等。
KMeans类的初始化参数n_clusters即簇数 k k k;
random_state是用于初始化选取 k k k个向量的随机数种子;
kmeans.labels_即每个点所属的簇;
kmeans.predict方法预测新的数据属于哪个簇;
kmeans.cluster_centers_返回每个簇的中心。
我们就改造一下这个简单的示例,完成对上面西瓜的聚类。

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansX = []f = open('melons.txt', 'r')for line in f:    X.append(np.array(line.split(' '), dtype = np.string_).astype(np.float64))kmeans = KMeans(n_clusters = 3, random_state = 0).fit(X)colors = ['red', 'green', 'blue']for i, cluster in enumerate(kmeans.labels_):    plt.scatter(X[i][0], X[i][1], color = colors[cluster])plt.show()

运行结果如下,可以看到和我们手写的聚类结果基本一致:

Python如何实现聚类K-means算法

以上就是“Python如何实现聚类K-means算法”这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注编程网行业资讯频道。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python如何实现聚类K-means算法

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python如何实现聚类K-means算法

今天小编给大家分享一下Python如何实现聚类K-means算法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。K-means
2023-07-02

python中实现k-means聚类算法详解

算法优缺点:优点:容易实现 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢 使用数据类型:数值型数据 算法思想k-means算法实际上就是通过计算不同样本间的距离来判断他们的相近关系的,相近的就会放到同一个类别中去。 1.首先我们需要
2022-06-04

如何使用Python语言实现K-Means聚类算法

这篇文章给大家分享的是有关如何使用Python语言实现K-Means聚类算法的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1 概述1.1 无监督学习 在一个典型的监督学习中,我们有一个有标签的训练集,我
2023-06-26

Python 中怎么实现一个k-means 均值聚类算法

Python 中怎么实现一个k-means 均值聚类算法,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。scikti-learn 将机器学习分为4个领域,分别是分
2023-06-02

Python sklearn中的K-Means聚类如何使用

这篇文章主要讲解了“Python sklearn中的K-Means聚类如何使用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python sklearn中的K-Means聚类如何使用”吧!初
2023-07-04

python怎么实现K-means算法

本篇内容介绍了“python怎么实现K-means算法”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!  K-means 聚类算法  特点  
2023-06-01

K-means聚类算法介绍与利用python实现的代码示例

聚类 今天说K-means聚类算法,但是必须要先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。 分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时
2022-06-04

python利用K-Means算法实现对数据的聚类案例详解

目的是为了检测出采集数据中的异常值。所以很明确,这种情况下的簇为2:正常数据和异常数据两大类 1、安装相应的库import matplotlib.pyplot as plt # 用于可视化 from sklearn.cluster imp
2022-06-02

如何用K-means算法的Java实现聚类分析681个三国武将

如何用K-means算法的Java实现聚类分析681个三国武将,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。一,k-means算法介绍:k-means算法接受输入量 k ;然后
2023-06-17

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录