spark应用程序如何在Java项目中运行
短信预约 -IT技能 免费直播动态提醒
这篇文章将为大家详细讲解有关spark应用程序如何在Java项目中运行,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。
如下所示:
package org.shirdrn.spark.job;import java.io.File;import java.io.IOException;import java.util.Arrays;import java.util.Collections;import java.util.Comparator;import java.util.List;import java.util.regex.Pattern;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;import org.apache.spark.api.java.function.PairFunction;import org.shirdrn.spark.job.maxmind.Country;import org.shirdrn.spark.job.maxmind.LookupService;import scala.Serializable;import scala.Tuple2;public class IPAddressStats implements Serializable { private static final long serialVersionUID = 8533489548835413763L; private static final Log LOG = LogFactory.getLog(IPAddressStats.class); private static final Pattern SPACE = Pattern.compile(" "); private transient LookupService lookupService; private transient final String geoIPFile; public IPAddressStats(String geoIPFile) { this.geoIPFile = geoIPFile; try { // lookupService: get country code from a IP address File file = new File(this.geoIPFile); LOG.info("GeoIP file: " + file.getAbsolutePath()); lookupService = new AdvancedLookupService(file, LookupService.GEOIP_MEMORY_CACHE); } catch (IOException e) { throw new RuntimeException(e); } } @SuppressWarnings("serial") public void stat(String[] args) { JavaSparkContext ctx = new JavaSparkContext(args[0], "IPAddressStats", System.getenv("SPARK_HOME"), JavaSparkContext.jarOfClass(IPAddressStats.class)); JavaRDD<String> lines = ctx.textFile(args[1], 1); // splits and extracts ip address filed JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() { @Override public Iterable<String> call(String s) { // 121.205.198.92 - - [21/Feb/2014:00:00:07 +0800] "GET /archives/417.html HTTP/1.1" 200 11465 "http://shiyanjun.cn/archives/417.html/" "Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko/20100101 Firefox/11.0" // ip address return Arrays.asList(SPACE.split(s)[0]); } }); // map JavaPairRDD<String, Integer> ones = words.map(new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); } }); // reduce JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() { @Override public Integer call(Integer i1, Integer i2) { return i1 + i2; } }); List<Tuple2<String, Integer>> output = counts.collect(); // sort statistics result by value Collections.sort(output, new Comparator<Tuple2<String, Integer>>() { @Override public int compare(Tuple2<String, Integer> t1, Tuple2<String, Integer> t2) { if(t1._2 < t2._2) { return 1; } else if(t1._2 > t2._2) { return -1; } return 0; } }); writeTo(args, output); } private void writeTo(String[] args, List<Tuple2<String, Integer>> output) { for (Tuple2<?, ?> tuple : output) { Country country = lookupService.getCountry((String) tuple._1); LOG.info("[" + country.getCode() + "] " + tuple._1 + "\t" + tuple._2); } } public static void main(String[] args) { // ./bin/run-my-java-example org.shirdrn.spark.job.IPAddressStats spark://m1:7077 hdfs://m1:9000/user/shirdrn/wwwlog20140222.log /home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1/java-examples/GeoIP_DATABASE.dat if (args.length < 3) { System.err.println("Usage: IPAddressStats <master> <inFile> <GeoIPFile>"); System.err.println(" Example: org.shirdrn.spark.job.IPAddressStats spark://m1:7077 hdfs://m1:9000/user/shirdrn/wwwlog20140222.log /home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1/java-examples/GeoIP_DATABASE.dat"); System.exit(1); } String geoIPFile = args[2]; IPAddressStats stats = new IPAddressStats(geoIPFile); stats.stat(args); System.exit(0); }}
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
spark应用程序如何在Java项目中运行
下载Word文档到电脑,方便收藏和打印~
下载Word文档
猜你喜欢
spark应用程序如何在Java项目中运行
这篇文章将为大家详细讲解有关spark应用程序如何在Java项目中运行,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。如下所示:package org.shirdrn.spark.job;im
2023-05-31
如何在pycharm中运行flask应用程序
这篇文章给大家介绍如何在pycharm中运行flask应用程序,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。首先你的使用pycharm创建你的第一个app。然后,你会有一个基本的应用程序了。没错就是那个hello wo
2023-06-15
LinkedList如何在java项目中运用
本篇文章为大家展示了LinkedList如何在java项目中运用 ,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。java LinkedList的实例详解实例代码: public class Link
2023-05-31
Enum如何在Java项目中运用
这期内容当中小编将会给大家带来有关Enum如何在Java项目中运用 ,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。首先,定义一个Enum的类Status,有两个属性statusValue状态码 以及 st
2023-05-31
2023-08-31
2023-06-15
2023-07-29
tomcat中如何运行Java程序
在Tomcat中运行Java程序,可以通过以下步骤:将Java程序打包成war文件,war文件是一种Web应用程序的打包格式,包含了项目的所有文件和依赖。将war文件放置在Tomcat的webapps目录下,Tomcat会自动解压war文件
2023-10-25
Commons lang组件如何在Java项目中运用
今天就跟大家聊聊有关Commons lang组件如何在Java项目中运用,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。 跟java.lang这个包的作用类似,Commo
2023-05-31
如何在阿里云服务器上运行Java应用程序
在现代社会,随着互联网的发展,越来越多的企业和开发者选择使用Java作为开发语言。为了更好地实现企业级应用,阿里云服务器成为了一个非常好的选择。本文将详细解释如何在阿里云服务器上运行Java应用程序。在阿里云服务器上运行Java应用程序的步骤如下:准备环境首先,你需要准备一个阿里云服务器。你需要确保你的服务器已经
2023-11-06
如何在java项目中应用SSM框架
本篇文章给大家分享的是有关如何在java项目中应用SSM框架,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。配置环境变量配置完后,使用命令行输入mvn -version查看是否配
2023-05-30
MD5加密算法如何在java项目中运用
这篇文章将为大家详细讲解有关 MD5加密算法如何在java项目中运用,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。java 中 MD5加密的实例主要代码如下package techDemo;
2023-05-31
如何在docker中运行mariadb程序
这篇文章主要介绍如何在docker中运行mariadb程序,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1.安装docker2.获取mariadb镜像docker pull mariadb首先在https://hub
2023-06-07
2023-06-14
eclipse项目如何在IDEA中打开并运行
(1)eclipse项目如何在IDEA中打开 1、打开IDEA,依次点击File→New→Project from Existing Sources 2、选择需要导入的eclipse项目后,点击OK 3、勾选 Import projec
2023-08-18
如何在java项目中利用IO流对数组进行排序
这篇文章主要为大家详细介绍了如何在java项目中利用IO流对数组进行排序,文中示例代码介绍的非常详细,具有一定的参考价值,发现的小伙伴们可以参考一下:1、排序思路(1)从字符输入流中读取文本,缓冲各个字符,从而实现字符、数组和行的高效读取(
2023-06-06
线程池如何在Java项目中使用
今天就跟大家聊聊有关线程池如何在Java项目中使用,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。Java通过Executors提供四种线程池,分别为:newCachedThreadP
2023-05-31
如何进行Jerry的spark演示应用程序分析
如何进行Jerry的spark演示应用程序分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Java应用程序入口:输入一个文本文件,这个Java应用会利用Spa
2023-06-02
浮点运算如何在Java项目中实现
这期内容当中小编将会给大家带来有关浮点运算如何在Java项目中实现,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。Java中浮点运算对于很多值浮点数都是采用其能够表示的离目标值最近的数来表示,这有可能会在计
2023-05-31
java多线程在项目中怎么应用
Java多线程在项目中的应用主要有以下几个方面:1. 提高程序的并发性:多线程可以同时处理多个任务,提高程序的并发性,使得程序的执行效率更高。2. 实现异步操作:多线程可以实现异步操作,将耗时的操作放在后台线程中执行,避免阻塞主线程,提高用
2023-09-29