我的编程空间,编程开发者的网络收藏夹
学习永远不晚

hadoop中mapreduce如何实现串联执行

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

hadoop中mapreduce如何实现串联执行

小编给大家分享一下hadoop中mapreduce如何实现串联执行,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

import java.io.IOException;import java.util.Iterator;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob;import org.apache.hadoop.mapreduce.lib.jobcontrol.JobControl;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class PickMain {private static final Log LOG = LogFactory.getLog(PickMain.class);public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {//下面通过使用ContolledJob和JobControl来实现提交多个作业Configuration conf = new Configuration();Job job1 = Job.getInstance(conf);job1.setJarByClass(PickMain.class);job1.setMapperClass(FindMapper.class);job1.setReducerClass(FindReducer.class);job1.setOutputKeyClass(Text.class);job1.setOutputValueClass(Text.class);FileInputFormat.addInputPath(job1, new Path(args[0]));FileOutputFormat.setOutputPath(job1, new Path(args[1]));Configuration conf2 = new Configuration();Job job2 = Job.getInstance(conf2);job2.setJarByClass(PickMain.class);job2.setMapperClass(SecondFindMapper.class);job2.setReducerClass(SecondFindReducer.class);job2.setOutputKeyClass(Text.class);job2.setOutputValueClass(Text.class);FileInputFormat.addInputPath(job2, new Path(args[1]));FileOutputFormat.setOutputPath(job2, new Path(args[2]));//创建ControlledJob对job进行包装ControlledJob cjob1 = new ControlledJob(conf);ControlledJob cjob2 = new ControlledJob(conf2);cjob1.setJob(job1);cjob2.setJob(job2);//设置依赖关系,这个时候只有等到job1执行完成后job2才会执行cjob2.addDependingJob(cjob1);//JobControl该类相当于一个job控制器,它是一个线程,需要通过线程启动JobControl jc = new JobControl("my_jobcontrol");jc.addJob(cjob1);jc.addJob(cjob2);Thread th = new Thread(jc);th.start();//等到所有的job都执行完成后在退出while(!jc.allFinished()) {Thread.sleep(5000);}System.exit(0);}}class FindMapper extends Mapper<LongWritable, Text, Text, Text>{Text m1 = new Text();Text m2 = new Text();@Overrideprotected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context)throws IOException, InterruptedException {String line = value.toString();String[] tmp1 = line.split(":");String outval = tmp1[0];String[] outkeys = tmp1[1].split(",");for(int i = 0 ; i<outkeys.length;i++) {m1.set(outkeys[i]);m2.set(outval);context.write(m1,m2);}}}class FindReducer extends Reducer<Text, Text, Text, NullWritable>{StringBuilder sb = new StringBuilder();NullWritable nul = NullWritable.get();Text outval = new Text();String spector = ":";@Overrideprotected void reduce(Text txt, Iterable<Text> txtiter, Reducer<Text, Text, Text, NullWritable>.Context context)throws IOException, InterruptedException {sb.delete(0, sb.length());sb.append(txt.toString());Iterator<Text> it = txtiter.iterator();while(it.hasNext()) {sb.append(spector+it.next().toString());}outval.set(sb.toString());context.write(outval, nul);}}class SecondFindMapper extends Mapper<LongWritable, Text, Text, Text>{Text keyout = new Text();Text valueout = new Text();@Overrideprotected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context)throws IOException, InterruptedException {String[] fs = value.toString().split(":");valueout.set(fs[0]);if(fs.length>0) {for(int i = 1;i<fs.length-1;i++) {for(int j = i+1;j<fs.length;j++) {if((int)fs[i].toCharArray()[0]>(int)fs[j].toCharArray()[0]) {keyout.set(fs[j]+"-"+fs[i]);}else {keyout.set(fs[i]+"-"+fs[j]);}context.write(keyout, valueout);}}}}}class  SecondFindReducer extends Reducer<Text, Text, Text, Text>{StringBuilder sb = new StringBuilder();Text outvalue = new Text();@Overrideprotected void reduce(Text key, Iterable<Text> iter, Reducer<Text, Text, Text, Text>.Context context)throws IOException, InterruptedException {sb.delete(0, sb.length());Iterator<Text> it =  iter.iterator();if(it.hasNext()) {sb.append(it.next().toString());}while(it.hasNext()) {sb.append(","+it.next().toString());}outvalue.set(sb.toString());context.write(key, outvalue);}}

以上是“hadoop中mapreduce如何实现串联执行”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网行业资讯频道!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

hadoop中mapreduce如何实现串联执行

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

hadoop中mapreduce如何实现串联执行

小编给大家分享一下hadoop中mapreduce如何实现串联执行,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!import java.io.IOExceptio
2023-06-02

Hive中的MapReduce任务是如何执行的

在Hive中,MapReduce任务的执行流程如下:Hive查询语句被解析成HiveQL,并被转换成MapReduce作业。Hive将MapReduce作业提交给Hadoop集群的YARN ResourceManager。YARN Re
Hive中的MapReduce任务是如何执行的
2024-03-12

C#如何实现动态执行字符串脚本

这篇文章主要介绍了C#如何实现动态执行字符串脚本的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇C#如何实现动态执行字符串脚本文章都会有所收获,下面我们一起来看看吧。先来代码using System;using
2023-07-05

如何在Linux系统中使用Systemd和Crontab实现任务的串行执行

要在Linux系统中使用Systemd和Crontab实现任务的串行执行,可以按照以下步骤进行操作:1. 创建一个Systemd服务单元:创建一个新的.service文件(可以使用任何文本编辑器),例如`my-service.service
2023-10-09

java如何实现对Hadoop进行操作

这篇文章主要为大家展示了“java如何实现对Hadoop进行操作”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“java如何实现对Hadoop进行操作”这篇文章吧。基本操作import org.a
2023-06-20

Linux中如何实现crontab定时执行任务

小编给大家分享一下Linux中如何实现crontab定时执行任务,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!基本格式 : *  *  *  *  *  comm
2023-06-13

如何实现shell中嵌套执行expect命令

本篇内容主要讲解“如何实现shell中嵌套执行expect命令”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何实现shell中嵌套执行expect命令”吧!1.先安装expect代码如下:yu
2023-06-09

JavaScript如何实现自执行函数

这篇文章将为大家详细讲解有关JavaScript如何实现自执行函数,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。自执行函数 ( function(){…} )() 和( function(){…} ()
2023-06-03

hadoop中分布式计算如何实现

Hadoop中的分布式计算是通过将数据分片存储在多台计算机上,并同时在这些计算机上执行数据处理操作来实现的。Hadoop框架中有两个核心组件:Hadoop分布式文件系统(HDFS)和MapReduce。HDFS负责将数据分散存储在集群中的多
hadoop中分布式计算如何实现
2024-03-13

php如何实现代码自动执行

本文小编为大家详细介绍“php如何实现代码自动执行”,内容详细,步骤清晰,细节处理妥当,希望这篇“php如何实现代码自动执行”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。一、PHP的自动执行功能PHP提供了多种方
2023-07-06

java代码如何实现异步执行

在Java中,可以使用多线程或者使用Java 8之后引入的CompletableFuture来实现异步执行。使用多线程:Thread thread = new Thread(() -> {// 异步执行的代码逻辑});thread.s
2023-10-25

如何在Teradata中执行复杂的联接和聚合操作

在Teradata中执行复杂的联接和聚合操作可以通过使用SQL语句来实现。以下是一些基本的步骤:编写SQL语句:首先,您需要编写SQL语句来实现所需的联接和聚合操作。这可能涉及到多个表之间的联接、筛选条件和聚合函数等。运行SQL语句:将编
如何在Teradata中执行复杂的联接和聚合操作
2024-04-09

Laravel如何实现supervisor执行异步进程

今天小编给大家分享一下Laravel如何实现supervisor执行异步进程的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。问
2023-07-04

ubantu如何执行命令实现php安装

这篇文章主要讲解了“ubantu如何执行命令实现php安装”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“ubantu如何执行命令实现php安装”吧!ubantu执行命令实现php安装的方法:
2023-06-25

如何在Shell中实现“多线程”执行脚本文件

本篇内容介绍了“如何在Shell中实现“多线程”执行脚本文件”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!即比如我有100个可执行文件,互相
2023-06-09

MongoDB中如何实现多表联查

今天小编给大家分享一下MongoDB中如何实现多表联查的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。前些天遇到一个需求,不复
2023-07-02

如何实现WinRAR 代码执行漏洞预警

这篇文章将为大家详细讲解有关如何实现WinRAR 代码执行漏洞预警,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。0x00 漏洞背景2019年2月20 日 @Nadav Grossman 发表
2023-06-19

C++ 函数如何实现最优执行时间?

c++++ 函数最优执行时间优化的技巧:避免拷贝操作。使用内联函数。使用快速算法。优化数据结构。优化内存使用。C++ 函数如何实现最优执行时间优化函数执行时间是提高代码效率的关键。在 C++ 中,可以通过以下技巧实现最优执行时间:1.
C++ 函数如何实现最优执行时间?
2024-04-22

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录