我的编程空间,编程开发者的网络收藏夹
学习永远不晚

大数据预处理综述

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

大数据预处理综述

大数据预处理综述

数据预处理背景

大数据项目开发流程

数据质量

  • 准确性:数据是正确的,数据存储在数据库中的值对应于真实世界的值。

    数据不准确的原因

    1. 数据收集设备故障。
    2. 数据输入错误。
    3. 数据传输过程出错。
    4. 命名约定、数据输入、输入字段格式不一致。
  • 相关性:指数据与特定的应用和领域有关。

    相关性应用场景

    1. 构造预测模型时,需要采集与模型相关的数据。
    2. 相同的数据再不同的应用场景,相关性也是不一样的。
  • 完整性:指信息具有一个实体描述的所有必需的部分,在传统关系型数据库中,完整性通常与空值(NULL)有关。一般包括记录的缺失和记录属性的缺失。

    数据不完整原因

    1. 涉及隐私,无法获取相关属性。
    2. 数据输入时由于人为疏忽。
    3. 数据输入时由于机器故障。
  • 时效性:指数据仅在一定时间段内对决策具有价值的属性。数据的时效性很大程度上制约了决策的客观效果。

    相关场景:

    1. 城市交通。
    2. 商品推荐。
  • 一致性:在数据库中,不同地方存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。

    常见不一致情况

    1. 逻辑不一致。
    2. 记录规范不一致:同一个数据,在不同的地方显示存储不一致,比如男女存储。
  • 可信性可解释性

    可行性

    1. 数据来源的权威性。
    2. 数据的规范性。
    3. 数据产生的时间。

    可解释性

    1. 反应数据是否容易理解。

数据预处理目的

数据预处理的目的就是提升数据质量。

重要性:数据预处理是数据挖掘中必不可少的关键一步,更是进行数据挖掘前的准备工作。

目的

  • 达到改进数据的质量,提高数据挖掘过程的准确率和效率。
  • 保证数据挖掘的正确性和有效性。
  • 通过对数据格式和内容的调整,使得数据更符合挖掘的需要。

数据预处理的流程

1. 数据清理

清理脏数据:由于重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效的数据。

1.1 缺失值处理

现有数据集中某个或某些属性的值是不完整的。

缺失值处理方法
  1. 忽略元组
  2. 人工填写
  3. 使用全局常量替换空缺值
  4. 属性的中心度量来填充
  5. 使用于给定元组同一类的所有样本中心度量值
  6. 使用最可能的值

1.2 噪声处理

不准确的值或明显错误的值。通过噪声处理降低对数据分析和结果的分析。

噪声数据产生
  1. 数据收集工具的问题。
  2. 数据输入错误。
  3. 数据传输错误。
  4. 技术的限制。
  5. 命名规则不一致。
噪声处理的方法:
  1. 分箱法:通过考察数据的近邻值来光滑有序数据值。

    举例:8、24、15、41、6、10、18、67、25等9个数。
    排序:6、8、10、15、18、24、25、41、67。
    分箱:

    ​ 箱1: 6、8、10
    ​ 箱2: 15、18、24
    ​ 箱3: 25、41、67
    分别用三种不同的分箱法求出平滑存储数据的值:
    平均值:8 箱1: 8,8,8。
    中值: 18 箱2: 18,18,18 。
    边界值:6、67 箱3:25,25,67,箱中的最大和最小值被视为箱边界。

  2. 回归

  3. 聚类

2. 数据集成

将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。

2.1 数据集成方法

  1. 联邦数据库:各数据源的数据视图,集成为全局模式。
  2. 中间件集成:通过统一的全局数据模型,来访问异构的数据源。
  3. 数据复制:将各个数据源的数据复制,到同一处,即数据仓库。

2.2 集成过程要处理的问题

  1. 实体识别:匹配多个信息源在现实世界中的等价实体。
  2. 冗余与相关分析:属性重复,属性相关冗余,元组重复。
  3. 数据冲突和检测: 对现实世界的同一实体,来自不同数据源的属性定义不同。原因:表示方法,度量单位、编码或比例的差异

3. 数据变换

3.1 转换目的

将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程可能更有效。

3.2 方法策略

  1. 光滑:去掉数据中的噪音。
  2. 属性构造:由给定的属性构造新的属性并添加到属性集中,帮助数据分析和挖掘。
  3. 聚集:对数据进行汇总或聚集
  4. 规范化:将属性数据按比例缩放,使之落入一个小的特定区间
  5. 离散化:数值属性用区间标签或概念标签替换。
  6. 由标称数据产生概念分层:属性,如street,可以泛化到较高的概念层,如city或country

4 数据归约

由于在现实场景中,数据集是很庞大的,数据是海量的,在整个数据集上进行复杂的数据分析和挖掘需要花费很长的时间。

为了帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。

4.1 数据归约分类

  1. 维归约:用于检测并删除不相关、弱相关或冗余的属性。
  2. 数量归约:用替代的、较小的数据表示形式替换原数据,来减少数据量。
  3. 数据压缩:用数据编码或数据转换将原来的数据集合压缩为一个较小规模的数据集合。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

大数据预处理综述

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

大数据预处理综述

数据预处理背景大数据项目开发流程数据质量准确性:数据是正确的,数据存储在数据库中的值对应于真实世界的值。数据不准确的原因数据收集设备故障。数据输入错误。数据传输过程出错。命名约定、数据输入、输入字段格式不一致。相关性:指数据与特定的应用和领域有关。相关性应用场
大数据预处理综述
2021-12-10

数据分析处理库Pandas——概述

导入Pandas库 创建DataFrame结构 读取.csv文件titanic_train.csv文件:https://files.cnblogs.com/files/gloria-zhang/titanic_train.rar pd.re
2023-01-31

大数据技术栈浅述

最近在做企业安全建设,企业安全建设中最常见的一项就是做监控,监控的种类多种多样,但是底层的技术栈却基本是一致的————大数据技术,下面我记录一下我最近学习到的一些大数据技术,下文只是描述个脉络而已。大数据的技术栈,以及对应的上下依赖图如下:看完这个图,是不是觉
大数据技术栈浅述
2014-10-01

Python基本数据类型综述:了解Python中的各种数据类型

Python数据类型一览:概述Python中的基本数据类型,需要具体代码示例Python是一种简洁、灵活且易于学习的编程语言,广泛应用于各个领域。在Python中,有多种数据类型用于存储和处理数据。本文将概述Python中的基本数据类型,
Python基本数据类型综述:了解Python中的各种数据类型
2024-01-20

怎么用Python做数据预处理

这篇文章给大家介绍怎么用Python做数据预处理,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。前戏在拿到一份数据准备做挖掘建模之前,首先需要进行初步的数据探索性分析(你愿意花十分钟系统了解数据分析方法吗?),对数据探索
2023-06-02

使用Python对EXCEL数据的预处理

这篇文章主要介绍了使用Python处理EXCEL基础操作篇2,如何使用Python对EXCEL数据的预处理,文中提供了解决思路和部分实现代码,一起来看看吧
2023-03-22

有哪些数据预处理的方法

今天就跟大家聊聊有关有哪些数据预处理的方法,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。数据预处理的方法有:1、数据清理,通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致
2023-06-14

C++技术中的大数据处理:如何采用流处理技术处理大数据流?

流处理技术用于大数据处理流处理是一种即时处理数据流的技术。在 c++++ 中,apache kafka 可用于流处理。流处理提供实时数据处理、可伸缩性和容错性。本例使用 apache kafka 从 kafka 主题读取数据并计算平均值。C
C++技术中的大数据处理:如何采用流处理技术处理大数据流?
2024-05-11

Python pandas数据预处理之行数据复制方式

本文详细介绍了PythonPandas中行数据复制的方法,包括:使用copy()方法创建数据帧副本,对其修改不影响原数据。使用loc属性复制行到新行或现有行。使用assign()方法添加新列或修改现有列,同时进行行复制。使用concat()方法连接数据帧,实现行复制。选择最佳方法取决于具体需求,如是否需要对副本修改、复制到特定位置或添加新列等。
Python pandas数据预处理之行数据复制方式
2024-04-02

编程热搜

目录