我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python中opencvK均值聚类的实现示例

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python中opencvK均值聚类的实现示例

K均值聚类

  • 预测的是一个离散值时,做的工作就是“分类”。
  • 预测的是一个连续值时,做的工作就是“回归”。

机器学习模型还可以将训练集中的数据划分为若干个组,每个组被称为一个“簇(cluster)”。这种学习方式被称为“聚类(clusting)”,它的重要特点是在学习过程中不需要用标签对训练样本进行标注。也就是说,学习过程能够根据现有训练集自动完成分类(聚类)。

根据训练数据是否有标签,可以将学习划分为监督学习和无监督学习。

K近邻、支持向量机都是监督学习,提供有标签的数据给算法学习,然后对数据分类

聚类是无监督学习,事先并不知道分类标签是什么,直接对数据分类。

聚类能够将具有相似属性的对象划分到同一个集合(簇)中。

聚类方法能够应用于所有对象,簇内的对象越相似,聚类算法的效果越好。

K均值聚类的基本步骤

K均值聚类是一种将输入数据划分为k个簇的简单的聚类算法,该算法不断提取当前分类的中心点(也称为质心或重心),并最终在分类稳定时完成聚类。

从本质上说,K均值聚类是一种迭代算法。

在实际处理过程中需要进行多轮的迭代,直到分组稳定不再发生变化,即可认为分组完成。

K均值聚类算法的基本步骤如下:

  • 随机选取k个点作为分类的中心点。
  • 将每个数据点放到距离它最近的中心点所在的类中。
  • 重新计算各个分类的数据点的平均值,将该平均值作为新的分类中心点。
  • 重复步骤2和步骤3,直到分类稳定。

可以是随机选取k个点作为分类的中心点,也可以是随机生成k个并不存在于原始数据中的数据点作为分类中心点。

距离最近: 要进行某种形式的距离计算。(在具体实现时,可以根据需要采用不同形式的距离度量方法。)

K均值聚类模块

OpenCV提供了函数cv2.kmeans()来实现K均值聚类。

该函数的语法格式为:

retval, bestLabels, centers=cv2.kmeans(data, K, bestLabels, criteria, attempts, flags) 
  • data:输入的待处理数据集合,应该是np.float32类型,每个特征放在单独的一列中。
  • K:要分出的簇的个数,即分类的数目,最常见的是K=2,表示二分类。
  • bestLabels:表示计算之后各个数据点的最终分类标签(索引)。实际调用时,参数bestLabels的值设置为None。
  • criteria:算法迭代的终止条件。当达到最大循环数目或者指定的精度阈值时,算法停止继续分类迭代计算。该参数由3个子参数构成,分别为type、max_iter和eps。
    • type表示终止的类型,可以是三种情况
      • cv2.TERM_CRITERIA_EPS:精度满足eps时,停止迭代。
      • cv2.TERM_CRITERIA_MAX_ITER:迭代次数超过阈值max_iter时,停止迭代。
      • cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_MAX_ITER:上述两个条件中的任意一个满足时,停止迭代。
  • max_iter:最大迭代次数。
  • eps:精确度的阈值。
  • attempts:在具体实现时,为了获得最佳分类效果,可能需要使用不同的初始分类值进行多次尝试。指定attempts的值,可以让算法使用不同的初始值进行多次(attempts次)尝试。
  • flags:表示选择初始中心点的方法,主要有以下3种。
    • cv2.KMEANS_RANDOM_CENTERS:随机选取中心点。
    • cv2.KMEANS_PP_CENTERS:基于中心化算法选取中心点。
    • cv2.KMEANS_USE_INITIAL_LABELS:使用用户输入的数据作为第一次分类中心点;如果算法需要尝试多次(attempts 值大于1时),后续尝试都是使用随机值或者半随机值作为第一次分类中心点。
  • retval:距离值(也称密度值或紧密度),返回 每个点到相应中心点距离的平方和(是一个数)。
  • bestLabels:各个数据点的最终分类标签(索引)。
  • centers:每个分类的中心点数据。

简单例子

例1:

随机生成一组数据,使用函数cv2.kmeans()对其分类。

  • 一组数据在[0,50]区间
  • 另一组数据在[200,250]区间
  • 使用函数cv2.kmeans()对它们分类。

主要步骤如下:

数据预处理

使用随机函数随机生成两组数据,并将它们转换为函数cv2.kmeans()可以处理的格式。

设置参数

设置函数cv2.kmeans()的参数形式。将参数criteria的值设置为“(cv2.TERM_CRITERIA_EPS+ cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0)”,在达到一定次数或者满足一定精度时终止迭代。

调用函数cv2.kmeans()

调用函数cv2.kmeans(),获取返回值,用于后续步骤的操作。

确定分类

根据函数cv2.kmeans()返回的标签(“0”和“1”),将原始数据分为两组

显示结果

绘制经过分类的数据及中心点,观察分类结果。

完整程序:

import numpy as np 
import cv2 
from matplotlib import pyplot as plt 
# 随机生成两组数组 
# 生成60个值在[0,50]内的数据 
num1 = np.random.randint(0,50,60) 
# 生成60个值在[200,250]内的数据 
num2 = np.random.randint(200,250,60) 
# 组合数据为num
num = np.hstack((num1, num2))
# 使用reshape函数将其转换为(120,1)  
num = num.reshape((120,1))  #每个数据为1列
# 转换为float32类型 
num = np.float32(num) 
# 调用kmeans模块 
# 设置参数criteria的值 
criteria = (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0) 
# 设置参数flags的值 
flags = cv2.KMEANS_RANDOM_CENTERS 
# 调用函数kmeans 
retval, bestLabels, centers = cv2.kmeans(num,2, None, criteria,10, flags) 

# 打印返回值 
print(retval) 
print(bestLabels) 
print(centers) 

# 获取分类结果 
n1 = num[bestLabels==0] 
n2 = num[bestLabels==1] 
    
# 绘制分类结果 
# 绘制原始数据 
plt.plot(np.ones(len(n1)),n1,'ro') 
plt.plot(np.ones(len(n2)),n2,'bo') 
# 绘制中心点 
#plt.plot([1],centers[0],'rx') 
#plt.plot([1],centers[1],'bx') 
plt.show() 
 

例2:

有两种物体:

  • 物体1的长和宽都在 [0,20] 内
  • 物体2的长和宽都在[40,60] 内

使用随机数模拟两种物体的长度和宽度,并使用函数cv2.kmeans()对它们分类。

根据题目要求,主要步骤如下:

  • 随机生成数据,并将它们转换为函数cv2.kmeans()可以处理的形式。
  • 设置函数cv2.kmeans()的参数形式。
  • 调用函数cv2.kmeans()。
  • 根据函数cv2.kmeans()的返回值,确定分类结果。
  • 绘制经过分类的数据及中心点,观察分类结果。
import numpy as np 
import cv2 
from matplotlib import pyplot as plt 
# 随机生成两组数值 
#长和宽都在[0,20]内 
m1 = np.random.randint(0,20, (30,2)) 
#长和宽的大小都在[40,60] 
m2 = np.random.randint(40,60, (30,2)) 
# 组合数据 
m = np.vstack((m1, m2)) 
# 转换为float32类型 
m = np.float32(m) 
# 调用kmeans模块 
# 设置参数criteria值 
criteria = (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0) 
# 调用kmeans函数 
ret, label, center=cv2.kmeans(m,2, None, criteria,10, cv2.KMEANS_RANDOM_CENTERS) 
    
''' 
#打印返回值 
print(ret) 
print(label) 
print(center) 
''' 
# 根据kmeans的处理结果,将数据分类,两大类 
res1 = m[label.ravel()==0] 
res2 = m[label.ravel()==1] 
# 绘制分类结果数据及中心点 
plt.scatter(res1[:,0], res1[:,1], c = 'g', marker = 's') 
plt.scatter(res2[:,0], res2[:,1], c = 'r', marker = 'o') 
plt.scatter(center[0,0], center[0,1], s = 200, c = 'b', marker = 'o') 
plt.scatter(center[1,0], center[1,1], s = 200, c = 'b', marker = 's') 
plt.xlabel('Height'), plt.ylabel('Width') 
plt.show() 

例3:

使用函数cv2.kmeans()将灰度图像处理为只有两个灰度级的二值图像。

需要对灰度图像内的色彩进行分类,将所有的像素点划分为两类。然后,用这两类的中心点像素值替代原有像素值,满足题目的要求。

主要步骤如下:

图像预处理

读取图像,并将图像转换为函数cv2.kmeans()可以处理的形式。

在读取图像时,如果是3个通道的RGB图像,需要将图像的RGB值处理为一个单独的特征值。具体实现时,用函数cv2.reshape()完成对图像特征值的调整。

为了满足函数cv2.kmeans()的要求,需要将图像的数据类型转换为numpy.float32类型。

设置函数cv2.kmeans()的参数形式

设置参数criteria的值为“(cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0)”,让函数cv2.kmeans()在达到一定精度或者达到一定迭代次数时,即停止迭代。

设置参数K的值为2,将所有像素划分为两类

调用函数cv2.kmeans()

调用函数cv2.kmeans(),得到距离值、分类中心点和分类标签,用于后续操作。

值替换

将像素点的值替换为当前分类的中心点的像素值。

显示变换前后的图像

分别显示原始图像和二值化图像。

import numpy as np 
import cv2 
import matplotlib.pyplot as plt 
# 读取待处理图像 
img = cv2.imread('./img/hand2.png') 
# 使用reshape将一个像素点的RGB值作为一个单元处理 
data = img.reshape((-1,3))    # n行 3列
# 转换为kmeans可以处理的类型 
data = np.float32(data) 
# 调用kmeans模块 
criteria = (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0) 
K =2 
ret, label, center=cv2.kmeans(data, K, None, criteria,10, cv2.KMEANS_RANDOM_CENTERS) 
    
# 转换为uint8数据类型,将每个像素点都赋值为当前分类的中心点像素值 
# 将center的值转换为uint8 
center = np.uint8(center) 
# 使用center内的值替换原像素点的值 
res1 = center[label.flatten()]   # 根据索引来取值,最后结果的大小同索引的大小
# 使用reshape调整替换后的图像 
res2 = res1.reshape((img.shape)) 
# 显示处理结果 
plt.subplot(121) 
plt.imshow(img[:,:,::-1]) 
plt.axis('off') 
plt.subplot(122) 
plt.imshow(res2[:,:,::-1]) 
plt.axis('off')
plt.show()

调整程序中的K值,就能改变图像的显示结果。例如,K=8,则可以让图像显示8个灰度级。

到此这篇关于python中opencv K均值聚类的实现示例的文章就介绍到这了,更多相关opencv K均值聚类内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python中opencvK均值聚类的实现示例

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

K均值聚类算法的Java版实现代码示例

1.简介K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚
2023-05-30

Python聚类算法之基本K均值实例详解

本文实例讲述了Python聚类算法之基本K均值运算技巧。分享给大家供大家参考,具体如下: 基本K均值 :选择 K 个初始质心,其中 K 是用户指定的参数,即所期望的簇的个数。每次循环中,每个点被指派到最近的质心,指派到同一个质心的点集构成一
2022-06-04

Python 中怎么实现一个k-means 均值聚类算法

Python 中怎么实现一个k-means 均值聚类算法,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。scikti-learn 将机器学习分为4个领域,分别是分
2023-06-02

手把手教你如何利用K均值聚类实现异常值的识别

首先,借助于Python随机生成两组二维数据,用于后文的实战。为了能够更加直观地洞察该数据,我们将其绘制成散点图。# 导入第三方包import numpy as npimport matplotlib.pyplot as plt# 随机生成
2023-06-02

Python中实现插值法的示例详解

这篇文章详细阐述了Python中插值法,一种用于估计未知函数值的技术。它介绍了线性插值,并提供了使用NumPy的Python代码示例。文章还讨论了其他插值方法、插值法的应用以及其限制。通过理解插值法及其适用范围,读者可以利用它在数据分析、图像处理和科学计算等领域获得准确的预测。
Python中实现插值法的示例详解
2024-04-02

K-means聚类算法介绍与利用python实现的代码示例

聚类 今天说K-means聚类算法,但是必须要先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。 分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时
2022-06-04

python实现线性插值的示例

线性插值是针对一维数据的插值方法,它根据一维数据序列中需要插值的点的左右临近两个数据来进行数值估计,这篇文章主要介绍了python实现线性插值,需要的朋友可以参考下
2022-12-08

Mysql中JSON字段的值的实现示例

我们在查询mysql数据时,查询某个字段的数剧是我们经常接触的,直接使用sql语句或者更方便的直接使用数据库的orm语句查询。但是如果需要查询某个json字段里面的某些数据,orm模型可能都无法达到效果,还不如直接使用sql语句进行查询来的
Mysql中JSON字段的值的实现示例
2024-09-11

基于Python实现计算纳什均衡的示例详解

纳什均衡是一种博弈论中的概念,它描述了一种平衡状态,其中每个参与者都不能通过独立改变其决策来提高自己的利益。本文就来用Python中的Nashpy和PuLP实现计算纳什均衡,感兴趣的可以了解一下
2023-02-06

python嵌套字典比较值与取值的实现示例

前言 本文通过示例给大家介绍了python嵌套字典比较值,取值,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧。 示例代码#取值import types allGuests = {'Alice': {'apples': 5,
2022-06-04

Python实现类似jQuery使用中的链式调用的示例

关于jQuery的链式调用 真正有意义的链式调用也就是方法链(method chaining)。方法链这个词是有的,而且使用的很广泛。其实很多人口中的“链式调用”实际上就是指方法链。但是“链式调用”这个词语还可以描述函数调用链,所以让它自身
2022-06-04

python利用K-Means算法实现对数据的聚类案例详解

目的是为了检测出采集数据中的异常值。所以很明确,这种情况下的簇为2:正常数据和异常数据两大类 1、安装相应的库import matplotlib.pyplot as plt # 用于可视化 from sklearn.cluster imp
2022-06-02

Java8中Stream流求最大值最小值的实现示例

本文主要介绍了Java8中Stream流求最大值最小值的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2023-05-17

vue中ref实现子向父传值的示例

本文主要介绍了vue中ref实现子向父传值的示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2023-01-28

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录