• easy-batch job readers


    easy-batch 提供了一些已经实现好的reader,对于从数据源读取records ,我们只需要注册实现好的RecordReader 接口
    (当然可以自己实现)

    readers

    • 代码参考
     
    Job job = new JobBuilder()
        .reader(new MyRecordReader(myDataSource))
        .build();
    • 支持的源
    flat files  
    xml, json && yaml 
    MS Excel 
    in-memory 字符串
    databases
    JMS queues 
    BlockingQueue and Iterable objects
    Java 8 streams
    标准输入
    • 参加源于模块

    来自官方的表格

    数据读取失败处理

    easy-batch提供了一些策略,我们可以方便的处理数据源读取的异常

    • 参考代码
     
    Job job = new JobBuilder()
        .reader(new RetryableRecordReader(unreliableDataSourceReader, new RetryPolicy(5, 1, SECONDS)))
        .build();

    性能说明

    • JdbcRecordReader 对于数据的处理是按块的,对于大量数据的处理,可以设置MaxRows 以及fetchSize 参数,避免大量数据加载内存
    • JpaRecordReader 对于数据的加载通过JPQL 查询到java.util.List 对象,所以对于大数据集的需要有耐心,同时可以通过maxResults 指定
      最大数据加载的rows
    • HibernateRecordReader 使用org.hibernate.ScrollableResults 处理数据,可以通过fetchSize以及 maxResult 指定获取的数据大小以及最大
      行数

    多文件数据加载

    我们可以通过MultiFileRecordReader 加载多文件数据,但是数据格式必须是一样的,当然也提供了json,yaml,xml,flatfile 的多文件
    加载模式

    JdbcRecordReader 警告

    JdbcRecordReader生产类型的记录JdbcRecord。JdbcRecord有一个java.sql.ResultSetas负载。在有一个主
    作业从关系数据库中读取数据并将其分派给worker的情况下,当worker仍在处理这些记录时,该主工作可能已经完成了
    读取数据源并将所有记录分派给worker队列的工作。因此,主作业将关闭数据库连接,并且分派的JDBC记录不再可用,
    因为它们的有效负载取决于已由主作业关闭的连接!
    解决此问题的方法是使主作业将JDBC记录映射到域对象,然后将这些对象安全地分派给worker,可以通过fork / join模式解决

    参考资料

    https://github.com/j-easy/easy-batch/wiki/readers

  • 相关阅读:
    数据结构与算法(15)——冒泡法和选择法排序
    数据结构与算法(14)——二分查找算法
    数据结构与算法(13)—顺序查找法
    数据结构与算法(12)——动态规划案例
    Object Detection的一些进展(Valse2020.4.30)
    机器学习(1)——模型评估与选择
    数据结构与算法(12)—分治策略
    数据结构与算法(11)—递归
    数据结构与算法(10)——有序表OrderedList
    数据结构与算法(9)——无序表List
  • 原文地址:https://www.cnblogs.com/rongfengliang/p/12730100.html
Copyright © 2020-2023  润新知