ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环也是工作量较大的一块。当前知道的ETL工具有informatica, datastage,kettle,ETL Automation,sqoop,SSIS等等。
Kattle介绍
用来帮助你实现你的ETTL需要:抽取、转换、装入和加载数据。Kettle也叫 PDI,在2006年 Kettle 加入了开源的 BI 组织 Pentaho, 正式命名为PDI,英文全称为Pentaho Data Integeration。这个工具也正如我们中文翻译为水壶那样,它希望把所有需要的数据放到一个水壶里,然后以流的方式流出来。
下载安装
下载Kattle:https://community.hitachivantara.com/docs/DOC-1009855
安装使用kattle需要java环境,java环境配置,参考网文(kettle 7.X需要运行java 1.8或者更高版本)
解压安装包到安装目录,进入目录,运行
Spoon.bat :Windows
Spoon.sh:在 Linux、Apple OSX、Solaris 平台运行 Spoon。
工具介绍
kettle可以创建两种脚本文件,一种是transformation(*.ktr),就是任务,比如抽取数据,合并修改后再存入数据库什么的。 另一种是job(*.kjb),就是用来调用transformation的,类似oracle里的job调用存储过程。如下面的图分别是transformation脚本和job脚本。