• 大量数据也不在话下,Spring Batch并行处理四种模式初探


    1 前言

    欢迎访问南瓜慢说 www.pkslow.com获取更多精彩文章!

    Spring相关文章:Springboot-Cloud

    前面写了一篇文章《通过例子讲解Spring Batch入门,优秀的批处理框架》讲解Spring Batch入门,但要发挥它的作用,并行处理不能不了解。

    2 四种模式

    大多数情况下,单线程、单进程的Spring Batch已经能满足你的需求。在我们走向更复杂的特性之前,先看看简单的能不能用,Keep it Simple and Stupid

    不过,当你确定要使用并行处理时,Spring Batch也提供了多种选择。整体上分为两大类:

    • (1)单进程、多线程
    • (2)多进程

    细分如下:

    • (1)多线程的Step(单进程)
    • (2)并行的Steps(单进程)
    • (3)远程分块(多进程)
    • (4)远程分区(多进程)

    光从名字看,很难理解它们之间的差别,我们来一一介绍吧。

    2.1 多线程的Step

    通过提供一个TaskExecutor来执行,而TaskExecutor是可以自定义的,我们可以提供一个基于线程池的TaskExecutor,则可以实现多线程处理。

    @Bean
    public TaskExecutor taskExecutor(){
      return new SimpleAsyncTaskExecutor("spring_batch");
    }
    
    @Bean
    public Step sampleStep(TaskExecutor taskExecutor) {
      return this.stepBuilderFactory.get("sampleStep")
        .<String, String>chunk(10)
        .reader(itemReader())
        .writer(itemWriter())
        .taskExecutor(taskExecutor)
        .build();
    }
    

    2.2 并行Steps

    这个看起来跟第一个很像,其实完全不一样。它是多个steps之间来并行处理。所以job应该是可以分解为独立的step,不是按一步一步的顺序处理,这样才可以并行执行。比如下面的例子,step1step2合并成一个flow1,而step3flow2flow1flow2之间可以并行处理。

    代码如下:

    @Bean
    public Job job() {
      return jobBuilderFactory.get("job")
        .start(splitFlow())
        .next(step4())
        .build()        //builds FlowJobBuilder instance
        .build();       //builds Job instance
    }
    
    @Bean
    public Flow splitFlow() {
      return new FlowBuilder<SimpleFlow>("splitFlow")
        .split(taskExecutor())
        .add(flow1(), flow2())
        .build();
    }
    
    @Bean
    public Flow flow1() {
      return new FlowBuilder<SimpleFlow>("flow1")
        .start(step1())
        .next(step2())
        .build();
    }
    
    @Bean
    public Flow flow2() {
      return new FlowBuilder<SimpleFlow>("flow2")
        .start(step3())
        .build();
    }
    
    @Bean
    public TaskExecutor taskExecutor(){
      return new SimpleAsyncTaskExecutor("spring_batch");
    }
    

    2.3 远程分块

    在这种模式下,step会被拆成多个Java进程来处理,主程序与分块执行程序之间通过中间件来通信。如下图所示:

    由上图可以看出,读取只有一个进程Manager,而处理进程Worker则可以多个,所以适用于易读而难处理的场景。

    2.4 远程分区

    远程分区远程分块容易混淆,但其实它们是不同的。前面讲解的远程分块是一个进程读,多个进程处理;而远程分区是多个进程读,多个进程处理,多个进程写:

    所以,远程分区适用于容易有IO瓶颈的系统,因为它将读与写都拆到多个worker进程中去了。远程分区可以使用中间件,如消息队列,也可以不用。它通过PartitionHandler来进行分区处理,而Partitioner则定义了如何进行分区。

    3 总结

    本文介绍了Spring Batch并行处理的四种模式,分别是多线程Step、并行Steps、远程分块、远程分区。前两种比较简单,给出代码例子;而后两种则复杂得多,特别是远程分区模式,把IO压力和业务处理压力都分解了,能大大提高整个流程的处理效率。后续我们再专门讲解一下远程分区吧。


    欢迎关注微信公众号<南瓜慢说>,将持续为你更新...

    多读书,多分享;多写作,多整理。

  • 相关阅读:
    js实现页面触摸滑动
    关于js中window.location.href,location.href,parent.location.href,top.location.href的用法
    eclipse tomcat 插件
    Eclipse中的Web项目自动部署到Tomcat的webapp目录下
    i=i+1与i+=1的区别及效率(Java)
    Java super和this
    Thinkphp
    单一静态网页如何实现点击左边菜单在右边展现内容
    dbda封装类(包括:返回二维数组、Ajax调用返回字符串、Ajax调用返回JSON)
    图片轮播代码
  • 原文地址:https://www.cnblogs.com/larrydpk/p/13664256.html
Copyright © 2020-2023  润新知