我的编程空间,编程开发者的网络收藏夹
学习永远不晚

(手写)PCA原理及其Python实现图文详解

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

(手写)PCA原理及其Python实现图文详解

目录
  • 1、背景
  • 2、样本均值和样本方差矩阵
  • 3、PCA
    • 3.1 最大投影方差
    • 3.2 最小重构距离
  • 4、Python实现
    • 总结

      1、背景

      为什么需要降维呢?

      因为数据个数 N 和每个数据的维度 p 不满足 N >> p,造成了模型结果的“过拟合”。有两种方法解决上述问题:

      增加N;减小p。

      这里我们讲解的 PCA 属于方法2。

      2、样本均值和样本方差矩阵

      在这里插入图片描述

      在这里插入图片描述

      3、PCA

      在这里插入图片描述
      在这里插入图片描述

      3.1 最大投影方差

      在这里插入图片描述

      3.2 最小重构距离

      在这里插入图片描述

      4、Python实现

      
      """
          -*- coding: utf-8 -*-
          @ Time     : 2021/8/15  22:19
          @ Author   : Raymond
          @ Email    : wanght2316@163.com
          @ Editor   : Pycharm
      """
      from sklearn.datasets import load_digits
      from sklearn.decomposition import PCA
      import pandas as pd
      import matplotlib.pyplot as plt
      
      digits = load_digits()
      print(digits.keys())
      print("数据的形状为: {}".format(digits['data'].shape))
      # 构建模型 - 降到10 d
      pca = PCA(n_components=10)
      pca.fit(digits.data)
      projected=pca.fit_transform(digits.data)
      print('降维后主成分的方差值为:',pca.explained_variance_)
      print('降维后主成分的方差值占总方差的比例为:',pca.explained_variance_ratio_)
      print('降维后最大方差的成分为:',pca.components_)
      print('降维后主成分的个数为:',pca.n_components_)
      print('original shape:',digits.data.shape)
      print('transformed shape:',projected.shape)
      s = pca.explained_variance_
      c_s = pd.DataFrame({'b': s,'b_sum': s.cumsum() / s.sum()})
      c_s['b_sum'].plot(style= '--ko',figsize= (10, 4))
      plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
      plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题
      plt.axhline(0.85,  color= 'r',linestyle= '--')
      plt.text(6, c_s['b_sum'].iloc[6]-0.08, '第7个成分累计贡献率超过85%', color='b')
      plt.title('PCA 各成分累计占比')
      plt.grid()
      plt.savefig('./PCA.jpg')
      plt.show()
      

      结果展示:

      在这里插入图片描述

      总结

      本篇文章就到这里了,希望能给你带来帮助,也希望您能够多多关注编程网的更多内容!

      免责声明:

      ① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

      ② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

      (手写)PCA原理及其Python实现图文详解

      下载Word文档到电脑,方便收藏和打印~

      下载Word文档

      猜你喜欢

      (手写)PCA原理及其Python实现图文详解

      目录1、背景2、样本均值和样本方差矩阵3、PCA3.1 最大投影方差3.2 最小重构距离4、Python实现总结1、背景 为什么需要降维呢?因为数据个数 N 和每个数据的维度 p 不满足 N >> p,造成了模型结果的“过拟合”。有两种方法
      2022-06-02

      SPFA算法的实现原理及其应用详解

      SPFA算法,全称为Shortest Path Faster Algorithm,是求解单源最短路径问题的一种常用算法,本文就来聊聊它的实现原理与简单应用吧
      2023-05-20

      CRC校验原理及其C语言实现详解

      循环冗余校验(Cyclic Redundancy Check, CRC)是一种根据网络数据包或计算机文件等数据产生简短固定位数校验码的一种信道编码技术。本文主要介绍了CRC校验原理及其C语言实现,感兴趣的可以了解一下
      2023-03-10

      python实现高斯模糊及原理详解

      高斯模糊是一种常见的模糊技术,相关知识点有:高斯函数、二维卷积。 (一)一维高斯分布函数 一维(连续变量)高斯函数形式如下,高斯函数又称“正态分布函数”:μ是分布函数的均值(或者期望),sigma是标准差。 一维高斯分布函数的图形:从图可知
      2022-06-02

      详解Bagging算法的原理及Python实现

      目录一、什么是集成学习二、Bagging算法三、Bagging用于分类四、Bagging用于回归一、什么是集成学习 集成学习是一种技术框架,它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务,一般结构是:先产生
      2022-06-02

      详解B+树的原理及实现Python代码

      B+树是自平衡树的高级形式,其中所有值都存在于叶级中。B+树所有叶子都处于同一水平,每个节点的子节点数量≥2。B+树与B树的区别是各节点在B树上不是相互连接,而在B+树上是相互连接的。B+树多级索引结构图B+树搜索规则1、从根节点开始
      详解B+树的原理及实现Python代码
      2024-01-24

      一文详解手动实现Recoil状态管理基本原理

      这篇文章主要为大家介绍了一文详解手动实现Recoil状态管理基本原理实例解析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
      2023-05-19

      图文讲解选择排序算法的原理及在Python中的实现

      基本思想:从未排序的序列中找到一个最小的元素,放到第一位,再从剩余未排序的序列中找到最小的元素,放到第二位,依此类推,直到所有元素都已排序完毕。假设序列元素总共n+1个,则我们需要找n轮,就可以使该序列排好序。在每轮中,我们可以这样做:用未
      2022-06-04

      编程热搜

      • Python 学习之路 - Python
        一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
        Python 学习之路 - Python
      • chatgpt的中文全称是什么
        chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
        chatgpt的中文全称是什么
      • C/C++中extern函数使用详解
      • C/C++可变参数的使用
        可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
        C/C++可变参数的使用
      • css样式文件该放在哪里
      • php中数组下标必须是连续的吗
      • Python 3 教程
        Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
        Python 3 教程
      • Python pip包管理
        一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
        Python pip包管理
      • ubuntu如何重新编译内核
      • 改善Java代码之慎用java动态编译

      目录