python三种数据标准化
数据变换是数据准备的重要环节,它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。常见的变换方法:
1.数据平滑:去除数据中的噪声,将连续数据离散化。这里可以采用分箱、聚类和回归的方式进行数据平滑
2.数据聚集:对数据进行汇总,在SQL中有一些聚集函数可以供我们操作(比如Max)反馈某个字段的数值最大值,Sum返回某个字段的数值总和;
3.数据概化:将数据由较低的概念抽象成为较高的概念,减少数据复杂度,即用更高的概念替代更低的概念。比如说上海、杭州、深圳、北京可以概化为中国。
4.数据规范化:使属性数据按比例缩放,这样就将原来的数值映射到一个新的特定区域中。常用的方法有最小一最大规范化、Z-score规范化、按小数定标规范化等;
5.属性构造:构造出新的属性并添加到属性集中。这里会用到特征工程的知识,因为通过属性与属性的连接构造新的属性,其实就是特征工程。比如说,数据表中统计每个人的英语、语文和数学成绩,你可以构造一个“总和“这个属性,来作为新属性。这样“总和这个属性就可以用到后续的数据挖掘计算中。
在这些变换方法中,最简单易用的就是对数据进行规范化处理。下面我来给你讲下如何对数据进行规范化处理。
1、Min-max 归一化
Min-max规范化方法是将原始数据变换到[0,1]的空间中。用公式表示就是:
新数值=(原数值-极小值)/(极大值-极小值)。
2、Z-Score标准化
我们定义:新数值=(原数值一均值)/标准差。
3、小数定标规范化
小数定标规范化就是通过移动小数点的位置来进行规范化。小数点移动多少位取决于属性A的取值中的最大绝对值。
举个例子,比如属性A的取值范围是-999到88,那么最大绝对值为999,小数点就会移动3位,即新数值=原数值/1000。那么A的取值范围就被规范化为-0.999到0.088。
Python的SciKit-Learn库使用
1、Min-max 规范化
from sklearn import preprocessing import numpy as np#初始化数据,每一行表示一个样本,每一列表示一个特征x=np.array([[0.,-3.,1.], [3.,1.,2.], [0.,1.,-1.]])#将数据进行[0,1]规范化min_max_scaler=preprocessing.MinMaxScaler()minmax_x=min_max_scaler.fit_transform(x)print (minmax_x)
Z-Score规范化
from sklearn import preprocessing import numpy as np#初始化数据x=np.array([[0.,-3.,1.], [3.,1.,2.], [0.,1.,-1.]])#将数据进行Z-Score规范化scaled_x=preprocessing.scale(x)print (scaled_x)
小数定标规范化
from sklearn import preprocessing import numpy as np#初始化数据x=np.array([[0.,-3.,1.], [3.,1.,2.], [0.,1.,-1.]])#小数定标规范化j=np.ceil(np.log10(np.max(abs(x)))scaled_x=X/(10**j)print (scaled_x)
4、归一化和标准化的区别和联系
区别:
归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[a,b]区间内,仅由变量的极值决定,因此区间放缩法是归一化的一种。
标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,转换为标准正态分布,和整体样本分布相关,每个样本点都能对标准化产生影响。
归一化会改变数据的原始距离,分布,信息;
标准化一般不会。
联系:
它们的相同点在于都能取消由于量纲不同引起的误差;都是一种线性变换,都是对向量X按照比例压缩再进行平移。
5、使用情形:
什么时候用归一化?什么时候用标准化?
(1)如果对输出结果范围有要求,用归一化。
(2)如果数据较为稳定,不存在极端的最大最小值,用归一化。
(3)如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。
6、哪些模型必须归一化/标准化?
①SVM ②KNN ③神经网络 ④PCA等
来源地址:https://blog.csdn.net/u012121721/article/details/131793474
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341