• flink elasticsearch sink table 忽略部分字段开发


    接上一篇,实现flink对elasicsearch的source/table

    flink elasticsearch sink 的 table写,默认会写些'冗余'列进es

    es table写,官方支持自定义主键列,和主键列的连接方式(-)

    以这几个列连接,计算id ,做为es的_id 写入es

    同时也像logstash/nifi 那样支持动态index,配置索引列,写入对的应索引

    写入没有问题

    问题是这些参于计算的列,也都会一并写入_source,虽然可以通过配置es的mapping,减少这些列的开销,但毕竟看着碍事

    有没有办法不写入这些列?

    官方没有,就自已想办法定制

    结全flink的应用经验,并结合上篇es source的适配经验,很简单就实现了

    1 官方的sink table是dynamic table 生成的是rowdata

    2 sink 结合scheme 实现对rowdata的解析,转为json字符串,bulk写入es

    问题就出现在这一步,scheme有列信息 rowdata 有列数据

    把要转为字符串的rowdata及scheme 都去掉相应的列,问题就应该解决了

    添加自定义参数名,ignore-fields 构造时加载

    遍历旧scheme,过滤掉ignore-fields 列,生成新的scheme,以scheme做序列化

    报错

    因为rowdata和scheme不匹配,rowdata内的列也需要去掉

    rowdata不支持k/v访问,但字段顺序和scheme一致,通过scheme算出ignore-fields在rowdata内的index

    过滤掉rowdata的相关列,重新生成rowdata即可

    如些问题解决,测试通过,写入es不再会有'冗余'字段


    但该方法只是功能满足,实际性能有损失

    scheme的加载是一次性的,没有影响

    但对每一行数据rowdata,都要过滤字段,生成新的rowdata,开销相对较大,有一定影响


    最完美的办法是在序列化的时候,也就是flink的原码基础上做,序列化时对rowdata不必要的字段做过滤

    而不是构造一个过滤字段后的rowdata,由flink序列化

    实现一个同名类,扔到flink/lib下,和官方类,先后顺序不清楚

    必要时自已改动序列化部分,编译flink,部署


    https://github.com/cclient/flink-connector-elasticsearch-sink

  • 相关阅读:
    native2ascii在线转换
    MyEclipse修改用户名和密码
    MyEclipse6.0安装SVN
    局域网远程关机
    使用 StackTrace 获得更多跟 Exception 有关的信息 http://blog.joycode.com/ghj/archive/2008/03/05/114925.aspx
    地图投影
    高斯-克吕格尔平面直角坐标系
    突破IIS的客户端连接限制(MtaEdt22.exe)
    生成SQL脚本含表数据
    服务跟踪查看器工具 (SvcTraceViewer.exe)WCF http://blogs.msdn.com/wcftoolsteamblogcn/
  • 原文地址:https://www.cnblogs.com/zihunqingxin/p/14957208.html
Copyright © 2020-2023  润新知