• 使用Druid的sql parser做一个表数据血缘分析工具


    前言

    大数据场景下,每天可能都要在离线集群,运行大量的任务来支持业务、运营的分析查询。任务越来越多的时候,就会有越来越多的依赖关系,每一个任务都需要等需要的input表生产出来后,再去生产自己的output表。最开始的时候,依赖关系自然是可以通过管理员来管理,随着任务量的加大,就需要一个分析工具来解析任务的inputs、outs,并且自行依赖上生产inputs表的那些任务。本文就介绍一个使用druid parser,来解析SQL的input、output的血缘分析工具。

    建议对druid比较陌生的同学可以先看下druid的官方文档。

    做一次sql的血缘分析的流程

    • 解析sql,拿到抽象语法树
    • 遍历抽象语法树,得到from、to

    使用druid解析sql到语法树

    druid提供了简单、快速的SQL解析工具,可以很简单拿到一段SQL的AST(抽象语法树)。而druid对语法树提供了多种的SQLStatement,使遍历语法树更加容易。

     SQLStatementParser parser = SQLParserUtils.createSQLStatementParser(sql, JdbcConstants.HIVE);
     SQLStatement stmt= parser.parseStatementList().get(0);
    

    从语法树中取出from和to

    拿到语法树之后,想办法把from、to从语法树中取出来就大功告成。

    最初的写法

    最开始,就是简单的遍历一下语法树的节点,取出from表和to表的表名。

        /**
         * 根据create或者insert的sql取出from、to
         * @param sql
         * @return
         * @throws ParserException
         */
        private static Map<String, Set<String>> getFromTo(String sql) throws ParserException {
            SQLStatementParser parser = SQLParserUtils.createSQLStatementParser(sql, JdbcConstants.HIVE);
            SQLStatement stmt= parser.parseStatementList().get(0);
    
            Set<String> from = new HashSet<>();
            Set<String> to = new HashSet<>();
            if (stmt instanceof SQLInsertStatement) {
                SQLInsertStatement istmt = (SQLInsertStatement) stmt;
                to.add(istmt.getTableSource().toString().toUpperCase());
    
                SQLTableSource sts = istmt.getQuery().getQueryBlock().getFrom();
                from = getFromTableFromTableSource(sts);
            } else if (stmt instanceof SQLCreateTableStatement) {
                SQLCreateTableStatement cstmt = (SQLCreateTableStatement) stmt;
                to.add(cstmt.getTableSource().toString().toUpperCase());
    
                SQLTableSource sts = cstmt.getSelect().getQueryBlock().getFrom();
                from = getFromTableFromTableSource(sts);
            }
    
            Map<String, Set<String>> fromTo = new HashMap<>(4);
            fromTo.put("from", from);
            fromTo.put("to", to);
            return fromTo;
        }
    
        private static Set<String> getFromTableFromTableSource (SQLTableSource sts) {
            Set<String> from = new HashSet<>();
            if (sts instanceof SQLJoinTableSource) {
                from = getFromTableFromJoinSource((SQLJoinTableSource)sts);
            } else {
                from.add(sts.toString().toUpperCase());
            }
            return from;
        }
    
        private static Set<String> getFromTableFromJoinSource (SQLJoinTableSource sjts) {
            Set<String> result = new HashSet<>();
            getFromTable(result, sjts);
            return result;
        }
    
        // 递归获取join的表list
        private static void getFromTable (Set<String> fromList, SQLJoinTableSource sjts) {
            SQLTableSource left = sjts.getLeft();
            if (left instanceof SQLJoinTableSource) {
                getFromTable(fromList, (SQLJoinTableSource)left);
            } else {
                fromList.add(left.toString().toUpperCase());
            }
            SQLTableSource right = sjts.getRight();
            if (right instanceof SQLJoinTableSource) {
                getFromTable(fromList, (SQLJoinTableSource)right);
            } else {
                fromList.add(right.toString().toUpperCase());
            }
        }
    

    用druid更好的实现

    因为是为了快速完成,所以写的取出from、to表的部分还是存在很大的问题的。只能支持一条sql,只能支持简单的sql语句,比如union all或者子查询就有些无力。于是又看了一下文档,其实druid是提供了visitor方法来遍历语法树的,而且提供了一个简单的SchemaStatVisitor,可以取出Sql中所有用到的表。于是就可以写成这种格式。

    public static Map<String, TreeSet<String>> getFromTo (String sql) throws ParserException {
            List<SQLStatement> stmts = SQLUtils.parseStatements(sql, JdbcConstants.HIVE);
            TreeSet<String> fromSet = new TreeSet<>();
            TreeSet<String> toSet = new TreeSet<>();
            if (stmts == null) {
                return null;
            }
    
            String database="DEFAULT";
            for (SQLStatement stmt : stmts) {
                SchemaStatVisitor statVisitor = SQLUtils.createSchemaStatVisitor(JdbcConstants.HIVE);
                if (stmt instanceof SQLUseStatement) {
                    database = ((SQLUseStatement) stmt).getDatabase().getSimpleName().toUpperCase();
                }
                stmt.accept(statVisitor);
                Map<Name, TableStat> tables = statVisitor.getTables();
                if (tables != null) {
                    final String db = database;
                    tables.forEach((tableName, stat) -> {
                        if (stat.getCreateCount() > 0 || stat.getInsertCount() > 0) {
                            String to = tableName.getName().toUpperCase();
                            if (!to.contains("."))
                                to = db + "." + to;
                            toSet.add(to);
                        } else if (stat.getSelectCount() > 0) {
                            String from = tableName.getName().toUpperCase();
                            if (!from.contains("."))
                                from = db + "." + from;
                            fromSet.add(from);
                        }
                    });
                }
            }
    
  • 相关阅读:
    iOS开发 关于启动页和停留时间的设置
    iOS应用开发,全局强制竖屏,部分页面允许旋转的处理
    iOS利用Application Loader打包提交到App Store时遇到错误The filename 未命名.ipa in the package contains an invalid character(s). The valid characters are:A-Z ,a-z,0-9,dash,period,underscore,but the name cannot start w
    iOS之加载Gif图片
    Node以数据块的形式读取文件
    Nodejs日志管理包
    Java操作SFTP
    Nginx+Nodejs搭建图片服务器
    使用Atlas实现MySQL读写分离
    MySQL-(Master-Slave)配置
  • 原文地址:https://www.cnblogs.com/enhe/p/12141686.html
Copyright © 2020-2023  润新知