我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Java使用多线程做批处理(查询大量数据)

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Java使用多线程做批处理(查询大量数据)

Java使用多线程做批处理(查询大量数据)

Java使用多线程做批处理(查询大量数据)

前言背景

什么是进程
“进程”是操作系统的概念,一个独立运行的程序,就是一个“进程”。
什么是线程
“线程”是由“进程创建”的,一个进程可以创建任意多的线程,每个线程都包含一些代码。线程中的代码会同主进程或者其他线程“同时运行”。

什么是多进程
同一时间段,同时运行多个程序。
什么是多线程
一个程序同时启动多个线程,也就是多个代码块同时运行。从而提高程序的运行效率。

二、并发和并行
什么是并发
多个线程同时访问同一资源
例:你正在吃饭,有人来敲门,你放下饭碗去开门,回来接着吃饭。

什么是并行
多个线程同时开始运行
例:你正在吃饭,来电话啦,你边吃饭边打电话

Java使用多线程的条件

批处理(批量上传,批量导出,批量更新)

查询大量数据

本文以查询为例,展示一下线程池的使用。

本文使用的多线程框架是Executor

Executor 框架是 Java5 之后引进的,在 Java5 之后,通过Executor来启动线程比使用 Thread 的start方法更好

详情可以参考博客

https://else.wiki/post/JavaThreadPool

操作流程

  • 查询出表的数据总量。
  • 数据的切分,根据本机CPU的核数配置合适数量的线程处理数,根据数据总量为不同的线程分配不同的查询数据量分段,即不同的线程查询不同分段的数据。
  • 将各个查询数据的线程提交至线程池,这里使用的线程是带有返回结果的异步线程。(这样能把所有查询结果合并,才能进行下一步的操作。拿不到处理后的数据还怎么做下一步操作呢,所以一点要选择带有返回结果的线程)

为了例子足够简单,这里的数据总量直接写死,不去查询对应的数据库,我们的关注点放在,如何使用多线程以及多线程查询的结果合并,查询的表如下图,有1条数据,分成4个线程,每一个线程查询1条数据返回,最后把多个线程查询的数据合并

image-20220827111155997

controller层

@Resourceprivate IBlogService blogService;@GetMapping("/testThredData")public List testThredData(){return blogService.getAllResult();}

service层

public interface IBlogService extends IService<Blog> {    //每个线程分页查询    public List<Blog> getQueryData(Integer start,Integer end);    //合并线程结果    public List getAllResult();}

serviceImpl层

@Servicepublic class BlogServiceImpl extends ServiceImpl<BlogMapper, Blog> implements IBlogService {    @Resource    private BlogMapper blogMapper;    @Autowired    private MultiThreadQueryUtil multiThreadQueryUtil;     //每个线程分页查询    @Override    public List<Blog> getQueryData(Integer start, Integer end) {        return this.blogMapper.getQueryData(start,end);    }    //合并线程结果    @Override    public List getAllResult() {        return multiThreadQueryUtil.getMultiCombineResult();    }}

multiThreadQueryUtil工具类

@Servicepublic class MultiThreadQueryUtil {        public List<List> getMultiCombineResult() {        //开始时间        long start = System.currentTimeMillis();        //返回结果        List<List> result = new ArrayList<>();        //查询数据库总数量//        int count = workflowTaskMapper.selectCountAll();//        Map splitMap = ExcelLocalUtils.getSplitMap(count,5);        //假定总数据4条        //Callable用于产生结果        List<Callable<List>> tasks = new ArrayList<>();        for (int i = 1; i <= 4; i++) {            //不同的线程用户处理不同分段的数据量,这样就达到了平均分摊查询数据的压力            //这里让每个线程每次查询一条数据            int startNum =i-1;//对应的数据要和i挂钩 ,否则数据不变            int endNum =i;            Callable<List> qfe = new ThredQuery(startNum, endNum);            tasks.add(qfe);           }        try{            //定义固定长度的线程池  防止线程过多,5就够用了//            ExecutorService executorService = Executors.newFixedThreadPool(5);            //4条数据,分成4个线程来查询            ExecutorService executorService = Executors.newFixedThreadPool(4);            //Future用于获取结果            List<Future<List>> futures=executorService.invokeAll(tasks);            //处理线程返回结果            if(futures!=null&&futures.size() > 0){                for (Future<List> future:futures){                    result.addAll(future.get());                }            }            //关闭线程池,一定不能忘记            executorService.shutdown();        }catch (Exception e){            e.printStackTrace();        }        long end = System.currentTimeMillis();        System.out.println("线程查询数据用时:"+(end-start)+"ms");        return result;    }}

Future相关的知识,可以参考这篇博客

https://blog.csdn.net/bobozai86/article/details/123978048
注意:startNum和endNum的值要和i相关,楼主一开始直接设固定值,通过自增来改变,后来发现这两个值没有变化,修改成和i相关即可解决

ThredQuery线程执行方法类

public class ThredQuery implements Callable<List> {    public static SpringContextUtil springContextUtil = new SpringContextUtil();    private int start;    private int end;    //每个线程查询出来的数据集合    private List datas;    public  ThredQuery(int start,int end) {        this.start=start;        this.end=end;        //每个线程查询出来的数据集合//        QueryService queryService= springContextUtil.getBean("queryService");        //上面获取bean实例的方法可能会失效        IBlogService blogService = springContextUtil.getBean(IBlogService.class);        List count = blogService.getQueryData(start,end);        datas = count;    }    //返回数据给Future    @Override    public List call() throws Exception {        return datas;    }}

这里线程继承了 Callable,多线程实现对list数据的处理

SpringContextUtil工具类

@Componentpublic class SpringContextUtil implements ApplicationContextAware {        private static ApplicationContext applicationContext;    @Override    public void setApplicationContext(ApplicationContext applicationContext) throws BeansException {        this.applicationContext = applicationContext;    }        public static ApplicationContext getApplicationContext() {        return applicationContext;    }        public static HttpServletRequest getHttpServletRequest() {        return ((ServletRequestAttributes) RequestContextHolder.getRequestAttributes()).getRequest();    }    public static String getDomain(){        HttpServletRequest request = getHttpServletRequest();        StringBuffer url = request.getRequestURL();        return url.delete(url.length() - request.getRequestURI().length(), url.length()).toString();    }    public static String getOrigin(){        HttpServletRequest request = getHttpServletRequest();        return request.getHeader("Origin");    }        public static Object getBean(String name) {        return getApplicationContext().getBean(name);    }        public static <T> T getBean(Class<T> clazz) {        return getApplicationContext().getBean(clazz);    }        public static <T> T getBean(String name, Class<T> clazz) {        return getApplicationContext().getBean(name, clazz);    }}

我们借助postman来测试一下,可以看到执行正常,不同的线程查询不同的数据,并合并在一起

image-20220827113019709
image-20220827154827949
image-20220827113124090

来源地址:https://blog.csdn.net/m0_61820867/article/details/126556143

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Java使用多线程做批处理(查询大量数据)

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

怎么使用java多线程处理大批量数据

要使用Java多线程处理大批量数据,可以按照以下步骤进行:1. 创建一个线程池:使用Java中的ThreadPoolExecutor类来创建一个线程池。线程池可以管理和复用线程,提高性能和效率。```javaExecutorService
2023-09-26

java多线程批量处理数据的方法是什么

Java中处理批量数据的方法有以下几种:1. 使用线程池:创建一个线程池,将任务拆分为多个子任务,然后将子任务交给线程池中的线程进行处理。线程池会自动管理线程的创建和销毁,可以控制并发执行的线程数量,提高处理效率。2. 使用多线程并发处理:
2023-09-27

Mybatis集成MySQL使用游标查询处理大批量数据方式

MyBatis集成MySQL游标查询,通过将结果集保留在数据库中,减少网络开销,延迟结果集处理和处理大数据集。优点包括减少网络消耗、分批处理和轻量化资源消耗。缺点包括潜在锁定、资源占用和复杂性。使用步骤涉及建立、打开、获取和关闭游标。MyBatis集成需要创建游标、配置连接和使用SqlSession创建游标。示例代码演示了如何使用游标查询。注意事项强调及时关闭游标、性能优化和使用批处理模式。
Mybatis集成MySQL使用游标查询处理大批量数据方式
2024-04-02

Java实现多线程大批量同步数据(分页)

这篇文章主要为大家详细介绍了Java实现多线程大批量同步数据(分页),文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
2022-11-13

怎么使用php多线程处理大数据

在 PHP 中,通常使用多进程来实现多线程的功能,这是因为 PHP 中的线程模型与其他编程语言不同。以下是一个使用多进程处理大数据的例子:```php// 定义要处理的数据$data = range(1, 1000);// 设置进程数$nu
2023-08-12

qt多线程处理大量数据怎么实现

在Qt中,可以使用QThread来实现多线程处理大量数据。首先,创建一个继承自QThread的自定义线程类,重写其run()函数,将需要在子线程中执行的任务放在run()函数中。cppclass WorkerThread : public
2023-10-18

怎么用php多线程处理大数据

在PHP中,可以使用多种方法来处理大数据,其中包括使用多线程的方法。下面是一个示例,演示如何使用PHP多线程处理大数据:submit(new ThreadedDataChunk($chunk, 'processChunk'));}//
2023-10-22

qt多线程处理大量数据的方法是什么

在Qt中,处理大量数据的方法包括以下几种:1. 使用Qt的多线程框架:Qt提供了QThread类和QtConcurrent命名空间,可以方便地创建和管理多线程任务。可以将大量数据分配给不同的线程处理,提高处理效率。2. 使用信号和槽机制进行
2023-09-22

如何使用C#多线程处理多个队列数据

这篇文章主要介绍如何使用C#多线程处理多个队列数据,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!概述多线程(multithreading),是指从软件或者硬件上实现多个线程并发执行的技术。具有多线程能力的计算机因有硬
2023-06-15

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录