• KETTLE——(二)数据抽取


    过了个春节,好长时间没有更新了,今天接着写第二部分——数据抽取。

    进入界面以后会发现左侧菜单有两个东西:转换和作业;简单说一下,转换是单次的转换,不可重复,但可重复利用;作业是汇聚了其他操作和多次(可单次)转换,可定时触发,可定时循环。集体情况后面方便再说。


    KETTLE支持很多的种形式的数据输入,总体上分三种方式:第一种数据库数据输入(支持多种数据库关系和非关系型数据库);第二种文本数据输入(常见的多种文本,txt,xml等),第三种,有系统自动生成的的数据(包括人工在转换的时候添加的数据)。以数据库数据为例,操作如下。

    左侧输入——>表输入

    步骤名称(填写步骤名称),数据库连接(选择输入数据的数据库),就和连接资源库时的步骤差不多了(数据库连接),获取SQL查询语句,选择要输入的数据所在的表。

    得到查询表里面的所有字段的SQL语句,根据自己需求,自己调整。

    如果有条件查询里面存在变量,可勾选【允许……】和【替换……】但注意在前一步需要有变量的确定和输入,这里先做一个简单的输入,【预览】可看,点击【确定】即可。

    一个简单的表输入就完成了,其他的输入基本步骤也是如此,不同的是,如果是文本数据,需要告诉KETTLE怎么区分字段,是用什么分割的。

    一般只有数据输入是没有用的,我们还需要输出,更重要的是中间的转换过程,想要使用一个工具就想好好了解其功能,多试试各种勾选框和按钮的功能。

    最基本的数据输入完成。

  • 相关阅读:
    LightOJ 1236 Pairs Forming LCM(算数基本定理)
    LightOJ 1197 Help Hanzo(区间素数筛法)
    hdu4291 A Short problem(矩阵快速幂+循环节)
    弗洛伊德判圈法
    poj 1845 Sumdiv (算数基本定理+逆元)
    2018 ACM-ICPC 亚洲青岛区域网络赛 K XOR Clique(异或)
    牛客网暑期ACM多校训练营(第二场)A-run
    最长上升子序列和最长公共子序列
    Olympic Bus
    现代密码学
  • 原文地址:https://www.cnblogs.com/ben-mario/p/11429229.html
Copyright © 2020-2023  润新知