Flume Spooldir 源的一些问题

Flume Spooldir 源的一些问题
最近在用Flume做数据的收集。用到了里面的Spooldir的源在使用中有如下的问题：
- 如果文件的某一行有乱码，不符合指定的编码规范，那么flume会抛出一个exception，然后就停在那儿了。
- spooldir指定的文件夹中的文件一旦被修改，flume就会抛出一个exception，然后停在那儿了。
其实，flume的最大问题就是不够鲁棒。一旦出现问题，不能跳过，只能死在那儿。不知道flume为什么要这么设计。理论上，它应该允许我们在配置文件中指定在遇到错误的行时，是停止还是跳过，不过它目前并不支持这个。所以，我们只能写一个自己的flume的插件了。
```
https://github.com/xlvector/flume
https://github.com/ponyma/flume
```
这个插件主要修复了前面提到的两个问题：
- 如果某一行有乱码，flume会忽略这一行
- flume只会check最近N分钟没有修改过的文件
具体修改方法如下。首先，我们继承了SpoolDirectorySource，实现了一个叫做RobustSpoolDirectorySource的类。这个类的代码基本是拷贝了SpoolDirectorySource的代码。但做了如下的修改。

在getNextFile()的函数中，我们发现了一个filter，做了如下的修改:
```
 1 FileFilter filter = new FileFilter() {
 2     public boolean accept(File candidate) {
 3         String fileName = candidate.getName();
 4         if ((candidate.isDirectory()) ||
 5             (fileName.endsWith(completedSuffix)) ||
 6             (fileName.startsWith(".")) ||
 7             ignorePattern.matcher(fileName).matches() ||
 8             (System.currentTimeMillis() - candidate.lastModified() < 600000)) {
 9             return false;
10         }
11         return true;
12     }
13 };
```
这里，我们加入了一个条件:
```
(System.currentTimeMillis() - candidate.lastModified() < 600000)
```
也就是说10分钟之内修改过的文件我们不会处理。

第二个修改是关于编码的，你可以在ReliableSpoolingFileEventReader.java的代码中找到如下的代码：
```
1 ResettableInputStream in =
2     new ResettableFileInputStream(nextFile, tracker,
3         ResettableFileInputStream.DEFAULT_BUF_SIZE, inputCharset,
4         DecodeErrorPolicy.FAIL);
```
这里，我们只需要将DecodeErrorPolicy 改成 DecodeErrorPolicy.IGNORE 即可。
转载请注明出处，期待共同进步...
相关阅读:
[二、实用控件]12使用Map视图创建地图和MapPin
[二、实用控件]17在UIKit项目中使用Swift UI里的视图
 [二、实用控件]19将颜色、渐变、图片和图形作为视图的背景
 [二、实用控件]15使用定时器实现环形进度条的定时隐藏
 [二、实用控件]18利用旋转和偏移功能对视图进行镜像操作
 [二、实用控件]13使用MapKit里的地图视图
 [二、实用控件]20通过AnyView返回人意类型的视图
 [二、实用控件]14使用UIKit里的环形进度条
 [二、实用控件]16使用ProgressView快速创建环形进度条和水平进度条
 [二、实用控件]21使用ViewModifier视图修饰符集成多个样式
原文地址：https://www.cnblogs.com/zhangyukun/p/3995116.html