我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何进行MapReduce数据序列化读写概念的浅析

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何进行MapReduce数据序列化读写概念的浅析

这期内容当中小编将会给大家带来有关如何进行MapReduce数据序列化读写概念的浅析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

MapReduce为处理简单数据格式(如日志文件)提供了简明的文档支持,但MapReduce已经从日志文件发展到更复杂的数据序列化格式(如文本,XML和JSON)处理,本章的目标是记录如何使用常见的数据序列化格式,以及检查更结构化的序列化格式,并比较它们与MapReduce的适用性。下面主要介绍了MapReduce处理以不同格式(如XML和JSON)存储数据的方法,为更深入了解Avro和Parquet等这类适合大数据和Hadoop的数据格式铺平了道路。

数据序列化 - 使用文本及其他方法

如果希望使用无处不在的XML和JSON数据序列化格式,这些格式在大多数编程语言中都可直接工作,有多种工具可用于编组、解组和验证。但是,在MapReduce中使用XML和JSON面临两大挑战。首先,MapReduce需要能够支持读写特定数据序列化格式的类,如果想使用自定义文件格式,那么很可能没有相应的类支持正在使用的序列化格式;其次,MapReduce的强大之处在于能够并行读取输入数据,如果输入文件很大(数百兆字节甚至更多),读取序列化格式的类能够将较大文件拆分以便多个任务可以并行读取,这一点至关重要。

XML和JSON格式

MapReduce中的数据序列化支持是读取和写入MapReduce数据输入和输出类属性,让我们首先概述MapReduce如何支持数据输入和输出。

3.1 了解MapReduce中的输入和输出

你的数据可能位于许多FTP服务器后面的XML文件、中央Web服务器上的文本日志文件或HDFS中的Lucene索引。MapReduce如何跨多种存储机制读取和写入这些不同的序列化结构?

如何进行MapReduce数据序列化读写概念的浅析

图3.1 MapReduce中的输入和输出actor

图3.1显示了通过MapReduce的数据流,并确定了负责流的各部分参与者。在输入端,我们可以看到某些工作(创建拆分)在map阶段以外执行,而其他工作则作为map阶段的一部分执行(读取拆分),所有输出工作都在reduce阶段(写输出)执行。

图3.2 显示了仅使用map作业的相同流程,在仅map作业中,MapReduce框架仍使用OutputFormat和RecordWriter类将输出直接写入数据接收器。让我们来看看数据流并讨论各角色的责任,我们还将查看内置TextInputFormat和TextOutputFormat类中的相关代码,以更好地理解这些概念,TextInputFormat和TextOutputFormat类读取和写入面向行的文本文件。

3.1.1数据输入支持

MapReduce中数据输入的两个类是InputFormat和RecordReader,查询InputFormat类以确定应如何为map任务分区输入数据,并且RecordReader执行从输入读取数据。

INPUTFORMAT

MapReduce中的每个作业都必须根据InputFormat抽象类中指定的规则定义其输入。InputFormat实现者必须完成三步:描述map输入键和值类型信息;指定输入数据应该如何分区;指示应该从源读取数据的RecordReader实例。

如何进行MapReduce数据序列化读写概念的浅析

图3.2没有Reducer的MapReduce输入和输出actor

如何进行MapReduce数据序列化读写概念的浅析

图3.3带注释的InputFormat类及其三个规则

可以说,最重要的规则是确定如何划分输入数据。在MapReduce命名法中,这些划分称为输入拆分。输入拆分直接影响map并行效率,因为每个拆分由单个map任务处理。 使用无法在单个数据源(例如文件)上创建多个输入拆分的InputFormat将导致map阶段进行缓慢,因为将会按顺序处理该文件。

TextInputFormat类提供了InputFormat类的createRecordReader方法实现,但它将输入拆分的计算委托给其父类FileInputFormat。以下代码显示了TextInputFormat类的相关部分:

如何进行MapReduce数据序列化读写概念的浅析 

确定输入拆分的FileInputFormat代码稍微复杂,以下示例显示了代码的简化形式,以描述getSplits方法的主要元素:

如何进行MapReduce数据序列化读写概念的浅析

以下代码显示了如何指定用于MapReduce作业的InputFormat:

job.setInputFormatClass(TextInputFormat.class);

RECORDREADER

我们将在map任务中创建和使用RecordReader类,以从输入拆分中读取数据,并以 key/value形式提供每个记录供mapper使用。通常为每个输入拆分创建一个任务,每个任务都有一个RecordReader,负责读取该输入拆分的数据。

如何进行MapReduce数据序列化读写概念的浅析

图3.4 带注释的RecordReader类及其抽象方法

如前所示,TextInputFormat类创建一个LineRecordReader以从输入拆分中读取记录。LineRecordReader直接扩展RecordReader类,并使用LineReader类从输入拆分中读取行。LineRecordReader使用文件中的字节偏移量作为map key,并使用行的内容作为map value。 以下示例显示了LineRecordReader的简化版本:

如何进行MapReduce数据序列化读写概念的浅析

因为LineReader类很简单,所以我们将跳过该代码。下一步是查看MapReduce如何支持数据输出。

3.1.2 数据输出

MapReduce使用与输入类似的过程来支持输出数据。必须存在两个类:OutputFormat和RecordWriter。OutputFormat执行数据接收器属性的一些基本验证,RecordWriter将每个reducer输出写入数据接收器。

OUTPUTFORMAT

与InputFormat类非常相似,OutputFormat类(如图3.5所示)定义了实现必须满足的条件:检查与作业输出相关的信息;提供RecordWriter并指定输出提交者;允许写入并在任务完成时保持“permanent”。

如何进行MapReduce数据序列化读写概念的浅析

图3.5 带注释的OutputFormat类

就像TextInputFormat一样,TextOutputFormat还扩展了一个基类FileOutputFormat,负责复杂的数据流操作,例如输出提交。接下来,我们来看看TextOutputFormat执行工作流程,以下代码显示了如何指定用于MapReduce作业的OutputFormat:

job.setOutputFormatClass(TextOutputFormat.class);

RECORDWRITER

我们将使用RecordWriter将reducer输出写入目标数据接收器。这是一个简单的类,如图3.6所示。

如何进行MapReduce数据序列化读写概念的浅析

TextOutputFormat返回一个LineRecordWriter对象,它是TextOutputFormat的内部类,用于执行对文件写入,以下示例显示了该类的简化版本:

如何进行MapReduce数据序列化读写概念的浅析

在map端,InputFormat可确定执行了多少个map任务;在reducer端,任务的数量完全基于客户端设置的mapred.reduce.tasks值(如果没有设置, 该值会从mapred-site.xml中获取,如果站点文件中不存在,则从mapred-default.xml获取)。

上述就是小编为大家分享的如何进行MapReduce数据序列化读写概念的浅析了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注编程网行业资讯频道。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何进行MapReduce数据序列化读写概念的浅析

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何进行MapReduce数据序列化读写概念的浅析

这期内容当中小编将会给大家带来有关如何进行MapReduce数据序列化读写概念的浅析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。MapReduce为处理简单数据格式(如日志文件)提供了简明的文档支持,但
2023-06-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录