我的编程空间,编程开发者的网络收藏夹
学习永远不晚

spark应用程序如何在Java项目中运行

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

spark应用程序如何在Java项目中运行

这篇文章将为大家详细讲解有关spark应用程序如何在Java项目中运行,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

如下所示:

package org.shirdrn.spark.job;import java.io.File;import java.io.IOException;import java.util.Arrays;import java.util.Collections;import java.util.Comparator;import java.util.List;import java.util.regex.Pattern;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;import org.apache.spark.api.java.function.PairFunction;import org.shirdrn.spark.job.maxmind.Country;import org.shirdrn.spark.job.maxmind.LookupService;import scala.Serializable;import scala.Tuple2;public class IPAddressStats implements Serializable {  private static final long serialVersionUID = 8533489548835413763L;  private static final Log LOG = LogFactory.getLog(IPAddressStats.class);  private static final Pattern SPACE = Pattern.compile(" ");  private transient LookupService lookupService;  private transient final String geoIPFile;  public IPAddressStats(String geoIPFile) {   this.geoIPFile = geoIPFile;   try {    // lookupService: get country code from a IP address    File file = new File(this.geoIPFile);    LOG.info("GeoIP file: " + file.getAbsolutePath());    lookupService = new AdvancedLookupService(file, LookupService.GEOIP_MEMORY_CACHE);   } catch (IOException e) {    throw new RuntimeException(e);   }  }  @SuppressWarnings("serial")  public void stat(String[] args) {   JavaSparkContext ctx = new JavaSparkContext(args[0], "IPAddressStats",     System.getenv("SPARK_HOME"), JavaSparkContext.jarOfClass(IPAddressStats.class));   JavaRDD<String> lines = ctx.textFile(args[1], 1);   // splits and extracts ip address filed   JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {    @Override    public Iterable<String> call(String s) {     // 121.205.198.92 - - [21/Feb/2014:00:00:07 +0800] "GET /archives/417.html HTTP/1.1" 200 11465 "http://shiyanjun.cn/archives/417.html/" "Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko/20100101 Firefox/11.0"     // ip address     return Arrays.asList(SPACE.split(s)[0]);    }   });   // map   JavaPairRDD<String, Integer> ones = words.map(new PairFunction<String, String, Integer>() {    @Override    public Tuple2<String, Integer> call(String s) {     return new Tuple2<String, Integer>(s, 1);    }   });   // reduce   JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {    @Override    public Integer call(Integer i1, Integer i2) {     return i1 + i2;    }   });   List<Tuple2<String, Integer>> output = counts.collect();   // sort statistics result by value   Collections.sort(output, new Comparator<Tuple2<String, Integer>>() {    @Override    public int compare(Tuple2<String, Integer> t1, Tuple2<String, Integer> t2) {     if(t1._2 < t2._2) {       return 1;     } else if(t1._2 > t2._2) {       return -1;     }     return 0;    }   });   writeTo(args, output);  }  private void writeTo(String[] args, List<Tuple2<String, Integer>> output) {   for (Tuple2<&#63;, &#63;> tuple : output) {    Country country = lookupService.getCountry((String) tuple._1);    LOG.info("[" + country.getCode() + "] " + tuple._1 + "\t" + tuple._2);   }  }  public static void main(String[] args) {   // ./bin/run-my-java-example org.shirdrn.spark.job.IPAddressStats spark://m1:7077 hdfs://m1:9000/user/shirdrn/wwwlog20140222.log /home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1/java-examples/GeoIP_DATABASE.dat   if (args.length < 3) {    System.err.println("Usage: IPAddressStats <master> <inFile> <GeoIPFile>");    System.err.println(" Example: org.shirdrn.spark.job.IPAddressStats spark://m1:7077 hdfs://m1:9000/user/shirdrn/wwwlog20140222.log /home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1/java-examples/GeoIP_DATABASE.dat");    System.exit(1);   }   String geoIPFile = args[2];   IPAddressStats stats = new IPAddressStats(geoIPFile);   stats.stat(args);   System.exit(0);  }}

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

spark应用程序如何在Java项目中运行

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

spark应用程序如何在Java项目中运行

这篇文章将为大家详细讲解有关spark应用程序如何在Java项目中运行,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。如下所示:package org.shirdrn.spark.job;im
2023-05-31

如何在pycharm中运行flask应用程序

这篇文章给大家介绍如何在pycharm中运行flask应用程序,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。首先你的使用pycharm创建你的第一个app。然后,你会有一个基本的应用程序了。没错就是那个hello wo
2023-06-15

LinkedList如何在java项目中运用

本篇文章为大家展示了LinkedList如何在java项目中运用 ,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。java LinkedList的实例详解实例代码: public class Link
2023-05-31

Enum如何在Java项目中运用

这期内容当中小编将会给大家带来有关Enum如何在Java项目中运用 ,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。首先,定义一个Enum的类Status,有两个属性statusValue状态码 以及 st
2023-05-31

tomcat中如何运行Java程序

在Tomcat中运行Java程序,可以通过以下步骤:将Java程序打包成war文件,war文件是一种Web应用程序的打包格式,包含了项目的所有文件和依赖。将war文件放置在Tomcat的webapps目录下,Tomcat会自动解压war文件
2023-10-25

Commons lang组件如何在Java项目中运用

今天就跟大家聊聊有关Commons lang组件如何在Java项目中运用,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。 跟java.lang这个包的作用类似,Commo
2023-05-31

如何在阿里云服务器上运行Java应用程序

在现代社会,随着互联网的发展,越来越多的企业和开发者选择使用Java作为开发语言。为了更好地实现企业级应用,阿里云服务器成为了一个非常好的选择。本文将详细解释如何在阿里云服务器上运行Java应用程序。在阿里云服务器上运行Java应用程序的步骤如下:准备环境首先,你需要准备一个阿里云服务器。你需要确保你的服务器已经
如何在阿里云服务器上运行Java应用程序
2023-11-06

如何在java项目中应用SSM框架

本篇文章给大家分享的是有关如何在java项目中应用SSM框架,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。配置环境变量配置完后,使用命令行输入mvn -version查看是否配
2023-05-30

MD5加密算法如何在java项目中运用

这篇文章将为大家详细讲解有关 MD5加密算法如何在java项目中运用,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。java 中 MD5加密的实例主要代码如下package techDemo;
2023-05-31

如何在docker中运行mariadb程序

这篇文章主要介绍如何在docker中运行mariadb程序,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1.安装docker2.获取mariadb镜像docker pull mariadb首先在https://hub
2023-06-07

eclipse项目如何在IDEA中打开并运行

(1)eclipse项目如何在IDEA中打开 1、打开IDEA,依次点击File→New→Project from Existing Sources 2、选择需要导入的eclipse项目后,点击OK 3、勾选 Import projec
2023-08-18

如何在java项目中利用IO流对数组进行排序

这篇文章主要为大家详细介绍了如何在java项目中利用IO流对数组进行排序,文中示例代码介绍的非常详细,具有一定的参考价值,发现的小伙伴们可以参考一下:1、排序思路(1)从字符输入流中读取文本,缓冲各个字符,从而实现字符、数组和行的高效读取(
2023-06-06

线程池如何在Java项目中使用

今天就跟大家聊聊有关线程池如何在Java项目中使用,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。Java通过Executors提供四种线程池,分别为:newCachedThreadP
2023-05-31

如何进行Jerry的spark演示应用程序分析

如何进行Jerry的spark演示应用程序分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Java应用程序入口:输入一个文本文件,这个Java应用会利用Spa
2023-06-02

浮点运算如何在Java项目中实现

这期内容当中小编将会给大家带来有关浮点运算如何在Java项目中实现,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。Java中浮点运算对于很多值浮点数都是采用其能够表示的离目标值最近的数来表示,这有可能会在计
2023-05-31

java多线程在项目中怎么应用

Java多线程在项目中的应用主要有以下几个方面:1. 提高程序的并发性:多线程可以同时处理多个任务,提高程序的并发性,使得程序的执行效率更高。2. 实现异步操作:多线程可以实现异步操作,将耗时的操作放在后台线程中执行,避免阻塞主线程,提高用
2023-09-29

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录