一、kettle的inner join
需求:
目前本地文件系统上有一个person.csv文件:
数据库中有一个person表:
现在需要将这两张表做inner join的操作。
1.1首先我们写一个转换,这个转换有两个输入,一个输入是表输入,一个是csv类型文件的输入
首先是表输入的配置:
为什么要排序呢,因为做inner join的时候,需要两个输入都是排过序的。
下面是csv输入文件的配置:
1.2现在也需要对csv文件中的数据做排序:
1.3现在对排过序的输入做inner join
1.4对join完成后的数据做文本文件的输出
1.5运行这个转换查看运行的结果
二、kettle执行的日志类别
当运行一个转换或者job的时候,可以选择日志的级别
日志级别的介绍:
Nothing 没有日志 不显示任何输出
Error 错误日志 仅仅显示错误信息
Minimal 最小日志 使用最小的日志
Basic 基本日志 缺省的日志级别
Detailed详细日志 给出日志输出的细节
Debug 调试日志 调试目的,调试输出
Rowlevel行级日志 打印出每一行记录的信息
默认为基本日志
三、变量
kettle中的变量分两种:一种是属性变量,一种是运行时参数变量
3.1设置变量
3.1.1设置属性变量
设置属性变量有以下两种方式:
在$kettle_home/.kettle/kettle.properties里设置key=value
在spoon主界面点击编辑--》编辑kettle.properties文件
3.1.2设置运行时变量
在job或者转换的命名参数里设置参数的名称和默认值,然后在运行job和转换是要指定参数的值否则会使用默认的值
在spoon主界面点击编辑--》设置环境变量
环境变量是在spoon运行时有效,软件关闭重启后清除
现在我们将数据库的连接关键字设置为属性变量
3.2使用变量
3.2.1属性变量的使用
3.2.2使用运行时变量