• kettle数据质量统计


    1.利用Kettle的“分组”,“JavaScript代码”,“字段选择”组件,实现数据质量统计。
    2.熟练掌握“JavaScript代码”,“分组”等组件的使用,实现数据质量统计。

    【实验原理】
    通过“JavaScript代码”对表格的记录进行质量分类,然后通过“字段选择”生成带质量标志位字段的数据,再通过“分组”统计数据的质量问题。

    【实验环境】
    操作系统:Windows10 
    Kettle版本:7.1.0.0
    jdk版本:1.8.0及以上版本

    【实验步骤】

    一、建立转换

    双击spoon.bat打开kettle。(1)点击新建按钮,在下拉菜单中点击选择“转换”即可创建;(2)然后点击“保存”重命名该转换文件,保存在某个指定的路径;(3)选择输入步骤、、数据处理、输出步骤和跳。
    在这里插入图片描述

    二、各组件的配置

    1.“Excel的输入”的配置
    Step1:双击‘Excel输入’组件,配置‘文件’选项卡,设置输入数据的输入流和路径
    在这里插入图片描述

    Step2:配置‘工作表’选项卡,设置输入数据的起始行和起始列
    在这里插入图片描述

    Step3:配置‘字段’选项卡,获取字段名称,并设置字段的数据类型(重点,以防报错)
    在这里插入图片描述

    2.“JavaScript代码”的配置:
    双击“JavaScript代码”组件,编写代码设置并判断课程名称和课时数是否为空,这两个字段用以检测输入数据的数据质量。
    在这里插入图片描述

    3.“字段选择”的配置:
    双击‘字段选择’组件,配置‘选择和修改’选项卡,获取后续步骤选择的字段
    在这里插入图片描述

    4.“Microsoft Excel 中间标志数据输出”配置
    Step1:配置‘文件&工作表’选项卡,设置输出文件的名称、类型以及路径
    在这里插入图片描述

    Step2:配置‘字段’选项卡,获取字段并设置其类型,设置字段的格式(重点)
    在这里插入图片描述

    5.“分组”配置
    双击‘分组’组件,在JavaScript组件的代码里设置的字段进行聚合
    在这里插入图片描述

    6.“Microsoft Excel 数据质量统计输出”配置
    Step1:配置‘文件&工作表’选项卡,设置输出文件的名称、类型以及路径
    在这里插入图片描述

    Step2:配置‘字段’选项卡,获取字段并设置其类型(多余字段可删除)
    在这里插入图片描述

    三、执行转换

    点击按钮,执行转换,结果如下:
    在这里插入图片描述

    四、实验结果:

    输入文件‘课程信息表07.xlsx’:
    在这里插入图片描述

    输出文件‘test6_2.xls’:
    在这里插入图片描述

    输出文件‘test6_22.xls’:
    在这里插入图片描述

    五、实验总结

    本次实验的目的主要是通过“JavaScript代码”对表格的记录进行质量分类,并使用“分组”对数据质量进行统计。本次实验过程中,学习到新的思想办法处理数据,且暂未遇到较大的困难。

    附 件:

    在这里插入图片描述

  • 相关阅读:
    HTTP报文
    Linux命令行下快捷键
    ruby离线安装整理
    Tomcat启动时卡在 INFO HostConfig.deployDirectory Deploy
    ruby在线安装整理
    python_控制台输出带颜色的文字方法
    http proxy模块参数
    upstream模块调度算法
    upstream模块介绍
    nginx的upstream目前支持5种方式的分配
  • 原文地址:https://www.cnblogs.com/cndeveloper/p/14323622.html
Copyright © 2020-2023  润新知