easy-batch 提供了一些已经实现好的reader,对于从数据源读取records ,我们只需要注册实现好的RecordReader 接口
(当然可以自己实现)
readers
- 代码参考
Job job = new JobBuilder()
.reader(new MyRecordReader(myDataSource))
.build();
- 支持的源
flat files
xml, json && yaml
MS Excel
in-memory 字符串
databases
JMS queues
BlockingQueue and Iterable objects
Java 8 streams
标准输入
- 参加源于模块
来自官方的表格
数据读取失败处理
easy-batch提供了一些策略,我们可以方便的处理数据源读取的异常
- 参考代码
Job job = new JobBuilder()
.reader(new RetryableRecordReader(unreliableDataSourceReader, new RetryPolicy(5, 1, SECONDS)))
.build();
性能说明
JdbcRecordReader
对于数据的处理是按块的,对于大量数据的处理,可以设置MaxRows
以及fetchSize
参数,避免大量数据加载内存JpaRecordReader
对于数据的加载通过JPQL 查询到java.util.List
对象,所以对于大数据集的需要有耐心,同时可以通过maxResults 指定
最大数据加载的rowsHibernateRecordReader
使用org.hibernate.ScrollableResults
处理数据,可以通过fetchSize以及 maxResult 指定获取的数据大小以及最大
行数
多文件数据加载
我们可以通过MultiFileRecordReader
加载多文件数据,但是数据格式必须是一样的,当然也提供了json,yaml,xml,flatfile 的多文件
加载模式
JdbcRecordReader 警告
JdbcRecordReader生产类型的记录JdbcRecord。JdbcRecord有一个java.sql.ResultSetas负载。在有一个主
作业从关系数据库中读取数据并将其分派给worker的情况下,当worker仍在处理这些记录时,该主工作可能已经完成了
读取数据源并将所有记录分派给worker队列的工作。因此,主作业将关闭数据库连接,并且分派的JDBC记录不再可用,
因为它们的有效负载取决于已由主作业关闭的连接!
解决此问题的方法是使主作业将JDBC记录映射到域对象,然后将这些对象安全地分派给worker,可以通过fork / join模式解决