• ETL工具-KETTLE教程实例实战1----术语和定义


    1-资源库

    资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。
            资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。
            资源库有两种形式:
            一、Kettledatabase repository,即保存在各种常见的数据库资源库类型,用户通过用户名/密码来访问资源库中的资源,默认的用户名/密码是admin/admin和guest/guest。
            二、Kettle filerepository,保存在服务器硬盘文件夹内的资源库类型,此类型的资源库无需用户进行登录,直接进行操作。

    下图为资源库的创建方式

    2-转换

    转换步骤,可以理解为将一个或者多个不同的数据源组装成一条数据流水线。然后最终输出到某一个地方,文件或者数据库等

    3-作业

    作业,可以调度设计好的转换,也可以执行一些文件处理(比较,删除等),还可以ftp上传,下载文件,发送邮件,执行shell命令等

    3.1         转换连接

    主要表示数据的流向。从输入,过滤等转换操作,到输出

    3.2         作业连接

    可设置执行条件: 

    1)     无条件执行

    2)     当上一个Job执行结果为true时执行

    3)     当上一个Job执行结果为false时执行

    4  连接线

    连接转换步骤或者连接Job(实际上就是执行顺序)的连线

     

    5  Chef

    它是一个图形用户界面,使用SWT开发,用来设计一个作业,转换,SQL,FTP,邮件,检查表存在,检查文件存在,执行SHELL脚本

    6  Kitchen

    作业执行引擎,用来进行转换,校验,FTP上传。可以执行xml格式定义的任务以及保存在数据库上的

    7  Spoon

    Spoon是Kettle的另一个图形用户界面,用来设计数据转换过程

    8  Pan

    Pan是一个数据转换引擎,负责从不同的数据源读写和转换数据。

    pan.sh -file="/PRD/Customer Dimension.ktr" -level=Minimal

     

    往期文章:

    1. ETL工具-KETTLE教程实例实战3----转换
    2. ETL工具-KETTLE教程实例实战2----环境介绍
  • 相关阅读:
    SQLServer DMV Query
    SQL Server Logical/Physical Reads
    The include feature of SQL Server Index
    数据库教程:数据库常用对象
    数据库教程:数据库组成
    数据库教程(一):基本概念
    C#编程:依赖倒置原则DIP
    C#编程:AOP编程思想
    ASP.NET Core Web服务器
    DataTable实现分组
  • 原文地址:https://www.cnblogs.com/dalaba/p/12090710.html
Copyright © 2020-2023  润新知