• kettle学习笔记(六)——kettle转换步骤


    一、概述

      转换步骤分类:

        1. 增加新的列

        2. 字符串处理

        3. 行列变换

        4. 排序/排重/字段选择

        5. 其他转换步骤

    二、增加新的列

      1.增加常量列

        增加一列常量的列

        

      其它增加列的操作大同小异,不一一赘述,只介绍计算器

           1. 增加常量列
          2. 增加序列列
          3. 增加分组序列列
          4. 增加校验列
           5. 增加XML 列
           6. 计算器 

      2.计算器

        可以进行数值运算、日期运算等...

        

      更多计算类型的介绍,参见wiki

    三、字符串处理

      1.字符串拆分

        

        1.同Java的indexOf,左闭右开的形式

        2.将一个字段拆分为多个字段,注意配置拆分后接收的字段

        

        3.拆分成多行

          类似上面,不过拆分成多行是这样的结果:

          

      2.字符串合并

        

      3.字符串替换

        

        值映射:对数值进行映射,例如经典的性别1 0映射为男 女:

        

        正则匹配:

        

      4.字符串其它转换

        

        字符串操作:

          可以进行字符串转义(例如> 转义为 &gt)、保留/去除字符串里的数字、移除特殊字符、补充长度

    四、行列变换

      图示如下:(也叫正规化-列转行-宽表变窄表/        反正规化-行转列-窄表变宽表)

      

      示例如下:

        

      窄表变宽表的配置:注意理解分组字段的含义

        

      行转列,参考https://www.cnblogs.com/OliverQin/p/5871330.html

    五、排序/去重/字段选择

      1.排序

        

      2.排重

        Unique Row: 需要事先排序:

        

        Unique Row(Hash): 不排序,速度快,占内存。

  • 相关阅读:
    Git简介
    Git之 git status、git diff 的基本使用
    Git之撤销修改 git checkout file、git reset HEAD file 的使用
    git连接gitlab远程仓库
    Git版本回退及 git log 、 git reset hard commit_id 的基本使用
    Git创建版本库及git init 、add 和 commit m 的基本使用
    Git之工作区和暂存区
    Git的由来及分布式版本控制和集中式版本控制的区别
    MariaDB 主从同步与热备
    MariaDB 用户与权限管理
  • 原文地址:https://www.cnblogs.com/jiangbei/p/8995342.html
Copyright © 2020-2023  润新知