我的编程空间,编程开发者的网络收藏夹
学习永远不晚

大数据预处理综述

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

大数据预处理综述

大数据预处理综述

数据预处理背景

大数据项目开发流程

数据质量

  • 准确性:数据是正确的,数据存储在数据库中的值对应于真实世界的值。

    数据不准确的原因

    1. 数据收集设备故障。
    2. 数据输入错误。
    3. 数据传输过程出错。
    4. 命名约定、数据输入、输入字段格式不一致。
  • 相关性:指数据与特定的应用和领域有关。

    相关性应用场景

    1. 构造预测模型时,需要采集与模型相关的数据。
    2. 相同的数据再不同的应用场景,相关性也是不一样的。
  • 完整性:指信息具有一个实体描述的所有必需的部分,在传统关系型数据库中,完整性通常与空值(NULL)有关。一般包括记录的缺失和记录属性的缺失。

    数据不完整原因

    1. 涉及隐私,无法获取相关属性。
    2. 数据输入时由于人为疏忽。
    3. 数据输入时由于机器故障。
  • 时效性:指数据仅在一定时间段内对决策具有价值的属性。数据的时效性很大程度上制约了决策的客观效果。

    相关场景:

    1. 城市交通。
    2. 商品推荐。
  • 一致性:在数据库中,不同地方存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。

    常见不一致情况

    1. 逻辑不一致。
    2. 记录规范不一致:同一个数据,在不同的地方显示存储不一致,比如男女存储。
  • 可信性可解释性

    可行性

    1. 数据来源的权威性。
    2. 数据的规范性。
    3. 数据产生的时间。

    可解释性

    1. 反应数据是否容易理解。

数据预处理目的

数据预处理的目的就是提升数据质量。

重要性:数据预处理是数据挖掘中必不可少的关键一步,更是进行数据挖掘前的准备工作。

目的

  • 达到改进数据的质量,提高数据挖掘过程的准确率和效率。
  • 保证数据挖掘的正确性和有效性。
  • 通过对数据格式和内容的调整,使得数据更符合挖掘的需要。

数据预处理的流程

1. 数据清理

清理脏数据:由于重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效的数据。

1.1 缺失值处理

现有数据集中某个或某些属性的值是不完整的。

缺失值处理方法
  1. 忽略元组
  2. 人工填写
  3. 使用全局常量替换空缺值
  4. 属性的中心度量来填充
  5. 使用于给定元组同一类的所有样本中心度量值
  6. 使用最可能的值

1.2 噪声处理

不准确的值或明显错误的值。通过噪声处理降低对数据分析和结果的分析。

噪声数据产生
  1. 数据收集工具的问题。
  2. 数据输入错误。
  3. 数据传输错误。
  4. 技术的限制。
  5. 命名规则不一致。
噪声处理的方法:
  1. 分箱法:通过考察数据的近邻值来光滑有序数据值。

    举例:8、24、15、41、6、10、18、67、25等9个数。
    排序:6、8、10、15、18、24、25、41、67。
    分箱:

    ​ 箱1: 6、8、10
    ​ 箱2: 15、18、24
    ​ 箱3: 25、41、67
    分别用三种不同的分箱法求出平滑存储数据的值:
    平均值:8 箱1: 8,8,8。
    中值: 18 箱2: 18,18,18 。
    边界值:6、67 箱3:25,25,67,箱中的最大和最小值被视为箱边界。

  2. 回归

  3. 聚类

2. 数据集成

将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。

2.1 数据集成方法

  1. 联邦数据库:各数据源的数据视图,集成为全局模式。
  2. 中间件集成:通过统一的全局数据模型,来访问异构的数据源。
  3. 数据复制:将各个数据源的数据复制,到同一处,即数据仓库。

2.2 集成过程要处理的问题

  1. 实体识别:匹配多个信息源在现实世界中的等价实体。
  2. 冗余与相关分析:属性重复,属性相关冗余,元组重复。
  3. 数据冲突和检测: 对现实世界的同一实体,来自不同数据源的属性定义不同。原因:表示方法,度量单位、编码或比例的差异

3. 数据变换

3.1 转换目的

将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程可能更有效。

3.2 方法策略

  1. 光滑:去掉数据中的噪音。
  2. 属性构造:由给定的属性构造新的属性并添加到属性集中,帮助数据分析和挖掘。
  3. 聚集:对数据进行汇总或聚集
  4. 规范化:将属性数据按比例缩放,使之落入一个小的特定区间
  5. 离散化:数值属性用区间标签或概念标签替换。
  6. 由标称数据产生概念分层:属性,如street,可以泛化到较高的概念层,如city或country

4 数据归约

由于在现实场景中,数据集是很庞大的,数据是海量的,在整个数据集上进行复杂的数据分析和挖掘需要花费很长的时间。

为了帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。

4.1 数据归约分类

  1. 维归约:用于检测并删除不相关、弱相关或冗余的属性。
  2. 数量归约:用替代的、较小的数据表示形式替换原数据,来减少数据量。
  3. 数据压缩:用数据编码或数据转换将原来的数据集合压缩为一个较小规模的数据集合。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

大数据预处理综述

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

大数据预处理综述

数据预处理背景大数据项目开发流程数据质量准确性:数据是正确的,数据存储在数据库中的值对应于真实世界的值。数据不准确的原因数据收集设备故障。数据输入错误。数据传输过程出错。命名约定、数据输入、输入字段格式不一致。相关性:指数据与特定的应用和领域有关。相关性应用场
大数据预处理综述
2021-12-10

数据复制策略综述

数据复制是确保数据安全、可用和高性能的关键策略之一。不同的复制策略提供不同的权衡,可以根据具体需求选择。

从BERT到ChatGPT,百页综述梳理预训练大模型演变史

这篇近百页的综述梳理了预训练基础模型的演变史,让我们看到 ChatGPT 是怎么一步一步走向成功的。
训练模型2024-11-30

数据分析处理库Pandas——概述

导入Pandas库 创建DataFrame结构 读取.csv文件titanic_train.csv文件:https://files.cnblogs.com/files/gloria-zhang/titanic_train.rar pd.re
2023-01-31

No.1-时序数据库随笔 - 时序数据库综述

《时序数据库随笔系列》文章会涉及时序数据库发展趋势和现状分享,同时会深入剖析现有时序数据库产品,涉及到 OpenTSDB,InfluxDB,Apache IoTDB等主流时序数据库的设计原理和优劣的剖析。
数据库2024-12-01

Google综述:细数Transformer模型的17大高效变种

这是一篇谷歌2020年9月份在arXiv发表的综述论文 “Efficient Transformers: A Survey“,值得读读。

国内数十位NLP大佬合作,综述预训练模型的过去、现在与未来

本文中,来自清华大学计算机科学与技术系、中国人民大学信息学院等机构的多位学者深入研究了预训练模型的历史,特别是它与迁移学习和自监督学习的特殊关系,揭示了 PTM 在 AI 发展图谱中的重要地位。

Kmeans Java 数据预处理到底重不重要?(kmeans java 数据预处理重要吗)

在Java编程中,Kmeans算法是一种常用的聚类分析方法,用于将数据分为不同的群组。而数据预处理在Kmeans算法中起着至关重要的作用。它可以帮助我们清理、转换和准备数据,以便更好地应用Kmeans算法并获得更准确的结果。数据预处理的重要性体现在多个方面。首先,
Kmeans Java 数据预处理到底重不重要?(kmeans java 数据预处理重要吗)
Java2024-12-21

西浦、利物浦大学提出:点云数据增强首个全面综述

这篇综述首次全面总结了点云数据增强的相关研究工作。深度学习已成为点云分析任务(如检测、分割和分类)的主流和有效方法之一。为了减少在训练深度学习模型过程中的过拟合,特别是在训练数据量或多样性有限的情况下提高模型性能,数据增强通常是关键。

预处理加速干货:大幅加速数据预处理、轻松定制高性能ML算子

作为机器学习、计算机图形学领域炙手可热的框架和编程语言,Torch 和 Taichi 能否各取所长,结合使用呢?
数据算法2024-12-01

Python基本数据类型综述:了解Python中的各种数据类型

Python数据类型一览:概述Python中的基本数据类型,需要具体代码示例Python是一种简洁、灵活且易于学习的编程语言,广泛应用于各个领域。在Python中,有多种数据类型用于存储和处理数据。本文将概述Python中的基本数据类型,
Python基本数据类型综述:了解Python中的各种数据类型
2024-01-20

Python 文本数据预处理实践

在进行数据分析与可视化之前,得先处理好数据,而很多时候需要处理的都是文本数据,本文总结了一些文本预处理的方法。

大数据技术栈浅述

最近在做企业安全建设,企业安全建设中最常见的一项就是做监控,监控的种类多种多样,但是底层的技术栈却基本是一致的————大数据技术,下面我记录一下我最近学习到的一些大数据技术,下文只是描述个脉络而已。大数据的技术栈,以及对应的上下依赖图如下:看完这个图,是不是觉
大数据技术栈浅述
2014-10-01

怎么用Python做数据预处理

这篇文章给大家介绍怎么用Python做数据预处理,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。前戏在拿到一份数据准备做挖掘建模之前,首先需要进行初步的数据探索性分析(你愿意花十分钟系统了解数据分析方法吗?),对数据探索
2023-06-02

编程热搜

目录