我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Spring batch批处理框架

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Spring batch批处理框架

spring batch框架的简介

批处理任务是大多数IT项目的一个重要组成部分,批处理在业务系统中负责处理海量的数据,无须人工干预就能够自动高效的进行复杂的数据分析和处理。批处理会定期读入批量数据,经过相应的业务处理进行归档的业务操作,批处理的特征是自动执行,处理的数据量大,定时执行。将整个批处理的流程按逻辑划分可以分为读数据,处理数据和写数据。

spring batch对批处理本身的特性进行了抽象,将批处理作业抽象为job和job step,将批处理的处理过程分解为数据读,数据处理和数据写。

将异常处理机制分为跳过,重启和重试。将作业的分区分为多线程,并行远程和分区。

spring batch不是一个调度框架,但需要调度框架来配合完成批处理任务,它只关注批处理相关的任务问题,但没有提供相应的调度功能,如果需要使用调度功能,需要使用调度框架,这里介绍一个比较常用的调度框架quartz,可以配合spring batch完成批处理的任务调度。

spring batch的架构分为三层:基础架构层,核心层和应用层。应用层包含所有的批处理作业,核心层主要提供JobLauncher、Job和step,基础架构层主要提供通用的读(ItemReader)、写(ItemWriter)和服务处理(如:RetryTemplate重试模板;RepeatTemplate:重复模板),Spring

batch的三层架构体系使得Spring batch框架可以在不同的层级进行扩展,避免不同层级之间的相互影响。

job的介绍

批处理的作业是由一组step组成,同时job本身也是配置文件的顶级元素。每个作业都有自己的名字,可以定义step的执行顺序,以及定义作业是否可以重启。job执行的时候会生成一个job instance(作业实例)和一个job execution(作业执行器)。job instance包含执行job期间产生的数据以及job执行的状态信息;1个job可以对应多个job instance,1个job instance可以对应多个job execution。

job的配置的主要属性有id(作业的唯一标识)、job-repository(定义作业仓库)、incrementer(作业参数递增器)、restartable(作业是否重启)、parent(指定该作业的父作业)、abstract(定义作业是否抽象)。

step的介绍

step表示作业中一个完整的步骤,一个job可以由一个或者多个step组成,step主要负责批处理运行过程中的主要业务逻辑的实现。每次step执行的时候会生成一个或者多个job execution,每次任务执行失败的时候,等到下次重新执行该任务的时候就会为该任务的step重新生成一个step execution。

step可以配置tasklet、partition、job、flow。

step一般主要配置itemReader、itemProcess和itemWriter来完成批处理的业务逻辑处理。

job repository的介绍

job repository主要用来存储job运行期间的元数据(这些元数据包括job instance、job execution、job parameters、step execution、execution context等数据)。

spring batch框架进行元数据管理的时候共有9张表,其中有3张表(后缀是SEQ)用来分配主键的,这9张表分别是

BATCH_JOB_INSTANCE:作业实例表

BATCH_JOB_EXECUTION:作业执行器表

BATCH_JOB_EXECUTION_PARAMS:作业参数表

BATCH_STEP_EXECUTION:作业步执行器表

BATCH_JOB_EXECUTION_CONTEXT:作业执行上下文表

BATCH_STEP_EXECUTION_CONTEXT:作业步执行上下文表

BATCH_JOB_EXECUTION_SEQ:作业执行器序列表

BATCH_STEP_EXECUTION_SEQ:作业步序列表

BATCH_JOB_SEQ:作业序列表

itemReader的介绍

itemReader是Step中对资源的读处理,Spring batch框架提供了大量的直接可用的读组件可以快速的完成批处理应用的开发和构建,同时框架也提供了较好的复用和扩展组件,开发者可以自定义实现。

ListItemReader:读取List数据,只能读一次。

ItemReaderAdapter:ItemReader适配器,可以复用现有的读操作。

FlatFileItemReader:读Flat类型文件。

StaxEventItemReader:读XML类型文件。

JdbcCursorItemReader:基于JDBC游标方式读数据库。

HibernateCursorItemReader:基于hibernate游标方式读取数据库。

StoredProcedureItemReader:基于存储过程读取数据库。

IbatisPagingItemReader:基于Ibatis分页读取数据库。

JpaPagingItemReader:基于jpa方式分页读取数据库。

JdbcPagingItemReader:基于jdbc方式分页读取数据库。

HibernatePagingItemReader:基于Hibernate方式分页读取数据库。

JmsItemReader:读取jms队列。

IteratorItemReader:迭代方式的读组件。

MultiResourceItemReader:多文件读取组件。

MongoItemReader:基于分布式存储MongoDB读组件。

Neo4jItemReader:面向网格数据库Neo4j读组件。

ResourcesItemReader:基于批量资源的读组件。

AmqpItemReader:读取AMQP队列组件。

RepositoryItemReader:基于Spring Data的读组件。

itemProcess的介绍

itemProcess阶段表示对读取数据进行处理,开发者可以在这里面实现自己的业务操作。

CompositeItemProcessor:组合处理器,可以封装多个业务处理服务。

ItemProcessorAdapter:适配器,可以复用现有的业务处理服务。

PassThroughItemProcessor:不做业务处理,直接返回读取数据。

ValidatingItemProcessor:数据校验处理器,支持对数据的校验,如果校验不通过可以进行过滤或者跳过skip的方式来处理记录。

itemWriter的介绍

itemWriter是step中对资源的写处理,Spring batch框架提供了大量的直接可用的写组件可以快速的完成批处理应用的开发和构建,同时框架也提供了较好的复用和扩展组件,开发者可以自定义实现。

FlatFileItemWriter:写flat类型文件。

MultiResourceItemWriter:多文件写组件。

StaxEventItemWriter:写XML类型文件。

AmqpItemWriter:写AMQP类型消息。

ClassifierCompositeItemWriter:根据Classifier路由不同的Item到特定的ItemWriter处理。

HibernateItemWriter:基于Hibernate方式写数据库。

IbatisBatchItemWriter:基于Ibatis方式写数据库。

ItemWriterAdapter:适配器,可以复用现有的写服务。

JdbcBatchItemWriter:基于JDBC方式写数据库。

JmsItemWriter:写JMS队列。

JpaItemWriter:基于jpa方式写数据库。

GemfireItemWriter:基于分布式数据库Gemfire的写组件。

SpELMappingGemfireItemWriter:基于spring表达式语言写分布式数据库Gemfire的组件。

MimeMessageItemWriter:发送邮件的写组件。

MongoItemWriter:基于分布式文件存储数据库MongoDB写组件。

Neo4jItemWriter:面向网络数据库Neo4j的读组件。

PropertyExtractingDelegatingItemWriter:属性抽取代理写组件。

RepositoryItemWriter:基于Spring Data的写组件。

SimpleMailMessageItemWriter:发送邮件的写组件。

CompositeItemWriter:条目写的组合模式,支持组装多个ItemWriter。

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,同时也希望多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Spring batch批处理框架

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Spring batch批处理框架

spring batch框架的简介批处理任务是大多数IT项目的一个重要组成部分,批处理在业务系统中负责处理海量的数据,无须人工干预就能够自动高效的进行复杂的数据分析和处理。批处理会定期读入批量数据,经过相应的业务处理进行归档的业务操作,批处
2023-05-31

如何使用Spring Batch批处理框架

这篇文章主要讲解了“如何使用Spring Batch批处理框架”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何使用Spring Batch批处理框架”吧!1 前言Spring Batch是
2023-06-16

批处理框架Spring Batch有什么用

这篇文章给大家分享的是有关批处理框架Spring Batch有什么用的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。什么是批处理?在现代企业应用当中,面对复杂的业务以及海量的数据,除了通过庞杂的人机交互界面进行各种
2023-06-05

怎么使用Batch批处理脚本

这篇文章主要介绍“怎么使用Batch批处理脚本”,在日常操作中,相信很多人在怎么使用Batch批处理脚本问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么使用Batch批处理脚本”的疑惑有所帮助!接下来,请跟
2023-06-16

iterate在大数据批处理框架中的优化

在大数据批处理框架中,如Apache Hadoop和Spark,iterate函数或类似的概念通常用于迭代数据集。优化iterate函数的性能可以显著提高数据处理速度。以下是一些建议:使用更高效的数据结构:根据你的需求选择合适的数据结构。例
iterate在大数据批处理框架中的优化
2024-09-22

使用Spring框架有哪些好处

这篇文章主要介绍“使用Spring框架有哪些好处”,在日常操作中,相信很多人在使用Spring框架有哪些好处问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”使用Spring框架有哪些好处”的疑惑有所帮助!接下来
2023-06-02

Spring框架的原理是什么

这篇文章主要讲解了“Spring框架的原理是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Spring框架的原理是什么”吧!简要介绍spring的原理,并结合一个简单的实例,如何配置使用
2023-06-03

Spring框架中异常处理情况的示例分析

这篇文章主要为大家展示了“Spring框架中异常处理情况的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Spring框架中异常处理情况的示例分析”这篇文章吧。1.编写一个类,实现Hand
2023-06-20

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录