我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python三种数据标准化

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python三种数据标准化

数据变换是数据准备的重要环节,它通过数据平滑数据聚集数据概化规范化等方式将数据转换成适用于数据挖掘的形式。常见的变换方法:
1.数据平滑:去除数据中的噪声,将连续数据离散化。这里可以采用分箱、聚类和回归的方式进行数据平滑
2.数据聚集:对数据进行汇总,在SQL中有一些聚集函数可以供我们操作(比如Max)反馈某个字段的数值最大值,Sum返回某个字段的数值总和;
3.数据概化:将数据由较低的概念抽象成为较高的概念,减少数据复杂度,即用更高的概念替代更低的概念。比如说上海、杭州、深圳、北京可以概化为中国。
4.数据规范化:使属性数据按比例缩放,这样就将原来的数值映射到一个新的特定区域中。常用的方法有最小一最大规范化、Z-score规范化、按小数定标规范化等;
5.属性构造:构造出新的属性并添加到属性集中。这里会用到特征工程的知识,因为通过属性与属性的连接构造新的属性,其实就是特征工程。比如说,数据表中统计每个人的英语、语文和数学成绩,你可以构造一个“总和“这个属性,来作为新属性。这样“总和这个属性就可以用到后续的数据挖掘计算中。
在这些变换方法中,最简单易用的就是对数据进行规范化处理。下面我来给你讲下如何对数据进行规范化处理。

1、Min-max 归一化

Min-max规范化方法是将原始数据变换到[0,1]的空间中。用公式表示就是:
新数值=(原数值-极小值)/(极大值-极小值)。

2、Z-Score标准化

我们定义:新数值=(原数值一均值)/标准差。

3、小数定标规范化

小数定标规范化就是通过移动小数点的位置来进行规范化。小数点移动多少位取决于属性A的取值中的最大绝对值。
举个例子,比如属性A的取值范围是-999到88,那么最大绝对值为999,小数点就会移动3位,即新数值=原数值/1000。那么A的取值范围就被规范化为-0.999到0.088。

Python的SciKit-Learn库使用
1、Min-max 规范化

from sklearn import preprocessing import numpy as np#初始化数据,每一行表示一个样本,每一列表示一个特征x=np.array([[0.,-3.,1.],            [3.,1.,2.],            [0.,1.,-1.]])#将数据进行[0,1]规范化min_max_scaler=preprocessing.MinMaxScaler()minmax_x=min_max_scaler.fit_transform(x)print (minmax_x)

Z-Score规范化

from sklearn import preprocessing import numpy as np#初始化数据x=np.array([[0.,-3.,1.],            [3.,1.,2.],            [0.,1.,-1.]])#将数据进行Z-Score规范化scaled_x=preprocessing.scale(x)print (scaled_x)

小数定标规范化

from sklearn import preprocessing import numpy as np#初始化数据x=np.array([[0.,-3.,1.],            [3.,1.,2.],            [0.,1.,-1.]])#小数定标规范化j=np.ceil(np.log10(np.max(abs(x)))scaled_x=X/(10**j)print (scaled_x)

4、归一化和标准化的区别和联系

区别:
归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[a,b]区间内,仅由变量的极值决定,因此区间放缩法是归一化的一种。
标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,转换为标准正态分布,和整体样本分布相关,每个样本点都能对标准化产生影响。
归一化会改变数据的原始距离,分布,信息;
标准化一般不会。

联系:
它们的相同点在于都能取消由于量纲不同引起的误差;都是一种线性变换,都是对向量X按照比例压缩再进行平移。

5、使用情形:

什么时候用归一化?什么时候用标准化?
(1)如果对输出结果范围有要求,用归一化。
(2)如果数据较为稳定,不存在极端的最大最小值,用归一化。
(3)如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。

6、哪些模型必须归一化/标准化?

①SVM ②KNN ③神经网络 ④PCA等

来源地址:https://blog.csdn.net/u012121721/article/details/131793474

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python三种数据标准化

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python数据标准化的实例分析

说明 1、将原始数据转换为均值为0,标准差在1范围内。 2、对标准化而言:如果出现异常点,由于有一定数据量,少量异常点对平均值的影响不大,因此方差变化不大。 实例def stand_demo():"""标准化:return:""" # 1.
2022-06-02

数据标准化的难题

首先要明晰数据标准和数据标准化在概念上的区别。数据标准是一经制定发布后相对稳定的静态文件,而数据标准化是一项带有系统性、复杂性、困难性、长期性特征的动态管理工作,是对标准的某种程度上的落地。在数据标准管理中,通常数据标准相对好制定,而数据标

Python Pandas数据预处理:你知道数据标准化吗?

z 映射的值是用当前特征值与比较数组的平均值之差,除以比较数组的标准差计算得来的。例如,我们可以计算列 deceduti 的 z-map,使用列 terapia_intenva 作为比较数组。我们可以使用 scipy.stats​ 库的 z

使用 Python 进行数据预处理的标准化

数据的基本缩放是使其成为标准,以便所有值都在共同范围内。 在标准化中,数据的均值和方差分别为零和一。 它总是试图使数据呈正态分布。

Python标准库14 数据库 (sqlite3)

Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库,可以搭配Python建网站,或者制作有数据存储需求的工具。SQLite还在其它领域有广泛的应用,比如HTML5和移动端。Python
2023-06-02

数据货币化的三种途径

数字化转型的潮流趋势让许多公司开始意识到数据是一种可以产生利润的资产,这些企业不再仅仅来自互联网行业。

B站埋点数据标准化实践

用户行为数据管理和对应的行为数据分析的关系十分紧密,如何在产品层面上应用好,前置条件是埋点数据需要做到标准化管理、标准化应用,这是很多行业内公司及团队都会碰到的课题。本文将和大家一起分享B站在埋点标准化方面的实践经验。

Python3中六种标准数据类型的简单

作者:心叶时间:2018-04-21 09:28Python 中的变量不需要声明。每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。Python3 中有六个标准的数据类型:Number(数字) + String(字符串) + Lis
2023-01-31

Python3实现常用数据标准化方法

数据标准化是机器学习、数据挖掘中常用的一种方法。包括我自己在做深度学习方面的研究时,数据标准化是最基本的一个步骤。数据标准化主要是应对特征向量中数据很分散的情况,防止小数据被大数据(绝对值)吞并的情况。另外,数据标准化也有加速训练,防止梯度
2023-01-31

Python学习 :六个标准数据类型

一、Numbers(数字类型)数字类型主要分为两种—— 整数(Integer)与 浮点数(Float)整数分为整型和长整型(在Python3中已经不再区分为整型与长整型,统一称为整型)注意:数字类型是不可变的数据类型            
2023-01-30

如何应对数据标准化的难题

应对这些难题,最经济、最理想的模式当然是:首先建标准,再建应用系统、大数据平台、数据仓库、数据应用等。正因为其太过理想化,所以这种模式几乎是见不到的。因为一般的组织不大可能有这样的认识,很多时候大家都是先建设再治理。

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录