二、可视化ETL平台——Kettle
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经(extrac过抽取t)、转换(transform)、加载(load)至目的端的过程。ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程,目的是将分散、零乱、标准不统一的数据整合到一起。
1、入门案例
摘要:跟随着视频教学,做了一些基于kettle的demo
①表的输入、输出组件
案例01:使用kettle将txt文件抽取,然后装载到Excel
案例02:使用kettle将Excel文件抽取,然后导入到MySQL
案例03:使用kettle将MySQL数据库表中的数据抽取,然后装载到另一张表
②插入、更新组件
插入/更新组件能够将Kettle抽取的数据,与某个表的数据进行对比,如果数据存在就更新,不存在就插入。
案例04:修改 t_user中的张三这一行数据,修改age为22,同时,使用Kettle将 t_user1 中的张三这一行数据的age也修改为22。
③删除组件
删除组件能够按照指定条件,将表中的数据删除。
案例05:文本文件包含了要删除的两个用户id,使用Kettle将文本文件中两个ID对应的t_user1表的数据删除。
④排序记录组件
案例06:使用Kettle将t_user表中的用户数据,按照年龄升序排序,并将排序后的数据装载到Excel
⑤switch/case组件
案例07:从 t_user 表中读取所有用户数据,我们需要将性别为男的用户导出到一个Excel、性别为女的导出到另外一个Excel。
⑥SQL脚本组件
案例08:使用Kettle执行SQL脚本,将 t_user1 表中的数据清空。
案例09:用户输入指定参数来删除t_user1表中对应数据
⑦JOB(作业)开发
案例10:每5秒钟执行一次Kettle转换,也就是每5秒钟将Excel中的数据抽取并装载到MySQL中
⑧基于Linux系统使用kettle
案例11:将 /root/kettle/user.txt数据抽取到 /root/kettle/out_user.xls 表格中
案例12:每5秒钟执行一次Kettle转换,也就是每5秒钟将Excel中的数据抽取并装载到MySQL中
2、总结
在学习大数据的过程中,我们可能经常会遇到各种数据的处理,转换,迁移,所以为了以后更好的学习大数据,掌握一种etl工具的使用,必不可少。