• 大数据学习总结03


    二、可视化ETL平台——Kettle

    ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经(extrac过抽取t)、转换(transform)、加载(load)至目的端的过程。ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程,目的是将分散、零乱、标准不统一的数据整合到一起。

    1、入门案例

    摘要:跟随着视频教学,做了一些基于kettle的demo

    ①表的输入、输出组件

    案例01:使用kettle将txt文件抽取,然后装载到Excel

    案例02:使用kettle将Excel文件抽取,然后导入到MySQL

    案例03:使用kettle将MySQL数据库表中的数据抽取,然后装载到另一张表

    ②插入、更新组件

    插入/更新组件能够将Kettle抽取的数据,与某个表的数据进行对比,如果数据存在就更新,不存在就插入。

    案例04:修改 t_user中的张三这一行数据,修改age为22,同时,使用Kettle将 t_user1 中的张三这一行数据的age也修改为22。

    ③删除组件

    删除组件能够按照指定条件,将表中的数据删除。

    案例05:文本文件包含了要删除的两个用户id,使用Kettle将文本文件中两个ID对应的t_user1表的数据删除。

    ④排序记录组件

    案例06:使用Kettlet_user表中的用户数据,按照年龄升序排序,并将排序后的数据装载到Excel

    ⑤switch/case组件

    案例07:t_user 表中读取所有用户数据,我们需要将性别为男的用户导出到一个Excel、性别为女的导出到另外一个Excel

    ⑥SQL脚本组件

    案例08:使用Kettle执行SQL脚本,将 t_user1 表中的数据清空。

    案例09:用户输入指定参数来删除t_user1表中对应数据

    ⑦JOB(作业)开发

    案例10:每5秒钟执行一次Kettle转换,也就是每5秒钟将Excel中的数据抽取并装载到MySQL

    ⑧基于Linux系统使用kettle

    案例11: /root/kettle/user.txt数据抽取到 /root/kettle/out_user.xls 表格中

    案例12:5秒钟执行一次Kettle转换,也就是每5秒钟将Excel中的数据抽取并装载到MySQL

    2、总结

    在学习大数据的过程中,我们可能经常会遇到各种数据的处理,转换,迁移,所以为了以后更好的学习大数据,掌握一种etl工具的使用,必不可少。 

  • 相关阅读:
    [POI2004] SZP (贪心+拓扑排序)
    【洛谷 P1525】 关押罪犯 (二分图+二分答案)
    【洛谷 P1073】 最优贸易 (Tarjan缩点+拓扑排序)
    【洛谷 P4320】 道路相遇 (圆方树,LCA)
    【CF1009F】 Dominant Indices (长链剖分+DP)
    【洛谷 P1707】 刷题比赛 (矩阵加速)
    【洛谷 P4568】 [JLOI2011]飞行路线 (分层最短路)
    【洛谷 P1129】 [ZJOI2007]矩阵游戏 (二分图匹配)
    【CF558E】 A Simple Task (权值线段树)
    【洛谷 P2303】 [SDOi2012]Longge的问题 (欧拉函数)
  • 原文地址:https://www.cnblogs.com/MoooJL/p/13509648.html
Copyright © 2020-2023  润新知