我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python机器学习之PCA降维算法的示例分析

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python机器学习之PCA降维算法的示例分析

小编给大家分享一下Python机器学习之PCA降维算法的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

一、算法概述

  • 主成分分析 (Principal ComponentAnalysis,PCA)是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。

  • PCA 是最常用的一种降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的方差最大,以此使用较少的维度,同时保留较多原数据的维度。

  • PCA 算法目标是求出样本数据协方差矩阵的特征值和特征向量,而协方差矩阵的特征向量的方向就是PCA需要投影的方向。使样本数据向低维投影后,能尽可能表征原始的数据。

  • PCA 可以把具有相关性的高维变量合成为线性无关的低维变量,称为主成分。主成分能够尽可能的保留原始数据的信息。

  • PCA 通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等。

二、算法步骤

Python机器学习之PCA降维算法的示例分析

将原始数据按行组成m行n列的矩阵X

将X的每一列(代表一个属性字段)进行零均值化,即减去这一列的均值

求出协方差矩阵

求出协方差矩阵的特征值及对应的特征向量r

将特征向量按对应特征值大小从左到右按列排列成矩阵,取前k列组成矩阵P

计算降维到k维的数据

三、相关概念

  • 方差:描述一个数据的离散程度

Python机器学习之PCA降维算法的示例分析

  • 协方差:描述两个数据的相关性,接近1就是正相关,接近-1就是负相关,接近0就是不相关

Python机器学习之PCA降维算法的示例分析

  • 协方差矩阵:协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差

Python机器学习之PCA降维算法的示例分析

  • 特征值:用于选取降维的K个特征值

  • 特征向量:用于选取降维的K个特征向量

四、算法优缺点

优点

  • 仅仅需要以方差衡量信息量,不受数据集以外的因素影响。

  • 各主成分之间正交,可消除原始数据成分间的相互影响的因素。

  • 计算方法简单,主要运算是特征值分解,易于实现。

缺点

  • 主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。

  • 方差小的非主成分也可能含有对样本差异的重要信息,降维丢弃的数据可能对后续数据处理有影响。

五、算法实现

自定义实现

import numpy as np# 对初始数据进行零均值化处理def zeroMean(dataMat):    # 求列均值    meanVal = np.mean(dataMat, axis=0)    # 求列差值    newData = dataMat - meanVal    return newData, meanVal# 对初始数据进行降维处理def pca(dataMat, percent=0.19):    newData, meanVal = zeroMean(dataMat)    # 求协方差矩阵    covMat = np.cov(newData, rowvar=0)    # 求特征值和特征向量    eigVals, eigVects = np.linalg.eig(np.mat(covMat))    # 抽取前n个特征向量    n = percentage2n(eigVals, percent)    print("数据降低到:" + str(n) + '维')    # 将特征值按从小到大排序    eigValIndice = np.argsort(eigVals)    # 取最大的n个特征值的下标    n_eigValIndice = eigValIndice[-1:-(n + 1):-1]    # 取最大的n个特征值的特征向量    n_eigVect = eigVects[:, n_eigValIndice]    # 取得降低到n维的数据    lowDataMat = newData * n_eigVect    reconMat = (lowDataMat * n_eigVect.T) + meanVal    return reconMat, lowDataMat, n# 通过方差百分比确定抽取的特征向量的个数def percentage2n(eigVals, percentage):    # 按降序排序    sortArray = np.sort(eigVals)[-1::-1]    # 求和    arraySum = sum(sortArray)    tempSum = 0    num = 0    for i in sortArray:        tempSum += i        num += 1        if tempSum >= arraySum * percentage:            return numif __name__ == '__main__':    # 初始化原始数据(行代表样本,列代表维度)    data = np.random.randint(1, 20, size=(6, 8))    print(data)    # 对数据降维处理    fin = pca(data, 0.9)    mat = fin[1]    print(mat)

利用Sklearn库实现

import matplotlib.pyplot as pltfrom sklearn.decomposition import PCAfrom sklearn.datasets import load_iris# 加载数据data = load_iris()x = data.datay = data.target# 设置数据集要降低的维度pca = PCA(n_components=2)# 进行数据降维reduced_x = pca.fit_transform(x)red_x, red_y = [], []green_x, green_y = [], []blue_x, blue_y = [], []# 对数据集进行分类for i in range(len(reduced_x)):    if y[i] == 0:        red_x.append(reduced_x[i][0])        red_y.append(reduced_x[i][1])    elif y[i] == 1:        green_x.append(reduced_x[i][0])        green_y.append(reduced_x[i][1])    else:        blue_x.append(reduced_x[i][0])        blue_y.append(reduced_x[i][1])plt.scatter(red_x, red_y, c='r', marker='x')plt.scatter(green_x, green_y, c='g', marker='D')plt.scatter(blue_x, blue_y, c='b', marker='.')plt.show()

六、算法优化

PCA是一种线性特征提取算法,通过计算将一组特征按重要性从小到大重新排列得到一组互不相关的新特征,但该算法在构造子集的过程中采用等权重的方式,忽略了不同属性对分类的贡献是不同的。

  • KPCA算法

KPCA是一种改进的PCA非线性降维算法,它利用核函数的思想,把样本数据进行非线性变换,然后在变换空间进行PCA,这样就实现了非线性PCA。

  • 局部PCA算法

局部PCA是一种改进的PCA局部降维算法,它在寻找主成分时加入一项具有局部光滑性的正则项,从而使主成分保留更多的局部性信息。

python的数据类型有哪些?

python的数据类型:1. 数字类型,包括int(整型)、long(长整型)和float(浮点型)。2.字符串,分别是str类型和unicode类型。3.布尔型,Python布尔类型也是用于逻辑运算,有两个值:True(真)和False(假)。4.列表,列表是Python中使用最频繁的数据类型,集合中可以放任何数据类型。5. 元组,元组用”()”标识,内部元素用逗号隔开。6. 字典,字典是一种键值对的集合。7. 集合,集合是一个无序的、不重复的数据组合。

以上是“Python机器学习之PCA降维算法的示例分析”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网行业资讯频道!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python机器学习之PCA降维算法的示例分析

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python机器学习之PCA降维算法的示例分析

小编给大家分享一下Python机器学习之PCA降维算法的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、算法概述主成分分析 (Principal Com
2023-06-15

Python机器学习之PCA降维算法详解

目录一、算法概述二、算法步骤三、相关概念四、算法优缺点五、算法实现六、算法优化一、算法概述主成分分析 (Principal ComponentAnalysis,PCA)是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因
2022-06-02

python机器学习算法与数据降维的示例分析

这篇文章主要介绍python机器学习算法与数据降维的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、数据降维机器学习中的维度就是特征的数量,降维即减少特征数量。降维方式有:特征选择、主成分分析。1.特征选择
2023-06-25

Python机器学习之AdaBoost算法的示例分析

这篇文章将为大家详细讲解有关Python机器学习之AdaBoost算法的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。一、算法概述AdaBoost 是英文 Adaptive Boosting(自适
2023-06-15

python机器学习Sklearn中adaboost算法的示例分析

这篇文章主要为大家展示了“python机器学习Sklearn中adaboost算法的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“python机器学习Sklearn中adaboost算法
2023-06-21

python机器学习中特征工程算法的示例分析

这篇文章主要为大家展示了“python机器学习中特征工程算法的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“python机器学习中特征工程算法的示例分析”这篇文章吧。一、机器学习概述机器
2023-06-25

Python机器学习之逻辑回归的示例分析

这篇文章主要介绍了Python机器学习之逻辑回归的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。Python主要用来做什么Python主要应用于:1、Web开发;2、
2023-06-15

python机器学习之神经网络的示例分析

这篇文章主要介绍了python机器学习之神经网络的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言,内置了许多有效的工具
2023-06-14

Python机器学习中pandas的示例分析

小编给大家分享一下Python机器学习中pandas的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!python的五大特点是什么python的五大特点:1
2023-06-15

Python全栈之学习JQuery的示例分析

这篇“Python全栈之学习JQuery的示例分析”文章,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要参考一下,对于“Python全栈之学习JQuery的示例分析”,小编整理了以下知识点,请大家跟着小编的步伐一步一
2023-06-29

Python全栈之学习HTML的示例分析

这篇“Python全栈之学习HTML的示例分析”除了程序员外大部分人都不太理解,今天小编为了让大家更加理解“Python全栈之学习HTML的示例分析”,给大家总结了以下内容,具有一定借鉴价值,内容详细步骤清晰,细节处理妥当,希望大家通过这篇
2023-06-29

python之CSF算法的示例分析

这篇文章给大家分享的是有关python之CSF算法的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1. 引言机载LiDAR可以获取快速、低成本地获取大区域的高精度地形测量值。为了获取高精度的地形数据(厘米
2023-06-20

Python机器学习之随机梯度下降法的实现

如果当我们数据量和样本量非常大时,每一项都要参与到梯度下降,那么它的计算量时非常大的,所以我们需要采用随机梯度下降法。本文介绍了Python实现随机梯度下降法的方法,希望对大家有所帮助
2023-02-27

Python基础学习之GUI对话框的示例分析

这篇文章主要介绍Python基础学习之GUI对话框的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、漂亮的标签图和按钮图这个标签的设置config,如果熟悉office的操作,应该是一件不太难的事情。仿照文
2023-06-15

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录