• flink 有状态udf 引起血案一


    版权声明:本文为博主原创文章,未经博主同意不得转载。 https://blog.csdn.net/rlnLo2pNEfx9c/article/details/83422587

    640

    场景

    近期在做一个画像的任务,sql实现的,当中有一个udf,会做非常多事情,包含将从redis读出历史值加权,并将中间结果和加权后的结果更新到redis。

    大家都知道,flink 是能够支持事件处理的。也就是能够没有时间的概念,那么在聚合,join等操作的时候,flink内部会维护一个状态,假如此时你也用redis维护了历史状态,也即是相似 result = currentState(flink)+lastState(redis)。且此时要针对计算的结果用where进行筛选.

    SQL例如以下

    CREATE VIEW view_count AS
    select
     `time`,
     gid,
     cid,
     count(feed_id) * 1 as strength
    FROM
     view_cid
    GROUP BY
     gid,
     cid,`time`;

    CREATE VIEW view_strength AS select
     `time`,
     gid,
     cid ,
     Get_Strength_Weaken(gid, cid, cast(strength as double), `time`, 0.95)  as `result`
    FROM
     view_count
    ;

    insert into
     hx_app_server_sink_common
    SELECT
     gid,
     cid,
     `result`
    FROM
     view_strength
    where `result` <> '0.0'
    GROUP BY
     gid,
     cid,
     `result`;

    业务分析

    第一个sql视图完毕的是首先分组,然后统计某一个字段并乘以权重;

    第二个sql视图。udf :Get_Strength_Weaken完毕当前值和历史值叠加工作,历史值存储在redis。同一时候将结果返回并更新redis,返回值作为result字段。

    第三个sql在输出的时候,result字段作为了where的条件和group by里的字段。

    这时候生成的flink概图例如以下:

    640

    观察中间的结构图能够发现。Get_Strength_Weaken被调用两次:

    1. where条件。这个的生成是因为第三条sql

    where `result` <> '0.0'

    产生的运行计划,是不是看起来非常懵逼。。

    2. select里面另一次调用Get_Strength_Weaken。这个非常明显。

    当然。能够打印一下flink udf里eval函数的调用细节日志,非常easy发现反复调用的问题。浪院长这个也是通过分析日志。对照输出结果来得出的论。

    综合上面分析和udf调用日志,结论就是udf被调用了两次。

    对于这个flink的udf被多次调用引起的结果偏大。整整调试了一下午。

    因为上面分析能够得出结论,flink将where条件下推了,where 条件推断会先运行,而select里后运行,那么能够调整SQL。例如以下:

    CREATE VIEW view_count AS
    select
    `time`,
    gid,
    cid,
    count(feed_id) * 1 as strength
    FROM
    view_cid
    GROUP BY
    gid,
    cid,`time`;

    CREATE VIEW view_strength AS select
    `time`,
    gid,
    cid ,
    getResult(gid,cid) as `result`
    FROM
    view_count
    where Get_Strength_Weaken(gid, cid, cast(strength as double), `time`, 0.95)  as `result` <> '0.0'
    ;

    insert into
    hx_app_server_sink_common
    SELECT
    gid,
    cid,
    `result`
    FROM
    view_strength
    GROUP BY
    gid,
    cid,
    `result`;

    那么实际上。select里的udf主要目的是取出来计算结果。那么这个时候能够写个简单的udf--getResult,仅仅让他从redis获取 where条件里更新到redis里的结果,因为该udf是无状态的即使多次调用。也无所谓。

    所以。总结一下,对于flink 来说,因为基于事件的处理,聚合、join等操作会有状态缓存,那么此时再用到含有外部存储状态的udf,一定要谨慎,结合运行计划,来合理放置udf的位置,避免出错。

    当然。调试阶段最好是有具体的日志。便于分析和定位问题。

    flink 状态删除

    事实上。flink聚合等内部状态有配置能够使其自己主动删除的,具体配置使用例如以下:

    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
    StreamTableEnvironment tableEnv = TableEnvironment.getTableEnvironment(env);

    // obtain query configuration from TableEnvironment
    StreamQueryConfig qConfig = tableEnv.queryConfig();
    // set query parameters
    qConfig.withIdleStateRetentionTime(Time.hours(12));

    // define query
    Table result = ...

    // create TableSink
    TableSink<Row> sink = ...

    // emit result Table via a TableSink
    result.writeToSink(sink, qConfig);

    // convert result Table into a DataStream<Row>
    DataStream<Row> stream = tableEnv.toAppendStream(result, Row.class, qConfig);

    [完]

    推荐阅读:

    推荐两个不错的flink项目

    Spark SQL从入门到精通

    重要 : 优化flink的四种方式

    flink超越Spark的Checkpoint机制

    640

  • 相关阅读:
    Storm 中drpc调用
    yarn下资源配置
    java 中 Stringbuff append源代码浅析
    总结的MR中连接操作
    hive中使用rcfile
    MapFile
    HDFS副本存放读取
    zoj 1967 Fiber Network/poj 2570
    zoj 2027 Travelling Fee
    poj 1742 Coins
  • 原文地址:https://www.cnblogs.com/zhchoutai/p/9894027.html
Copyright © 2020-2023  润新知