• 大数据学习总结03


    二、可视化ETL平台——Kettle

    ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经(extrac过抽取t)、转换(transform)、加载(load)至目的端的过程。ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程,目的是将分散、零乱、标准不统一的数据整合到一起。

    1、入门案例

    摘要:跟随着视频教学,做了一些基于kettle的demo

    ①表的输入、输出组件

    案例01:使用kettle将txt文件抽取,然后装载到Excel

    案例02:使用kettle将Excel文件抽取,然后导入到MySQL

    案例03:使用kettle将MySQL数据库表中的数据抽取,然后装载到另一张表

    ②插入、更新组件

    插入/更新组件能够将Kettle抽取的数据,与某个表的数据进行对比,如果数据存在就更新,不存在就插入。

    案例04:修改 t_user中的张三这一行数据,修改age为22,同时,使用Kettle将 t_user1 中的张三这一行数据的age也修改为22。

    ③删除组件

    删除组件能够按照指定条件,将表中的数据删除。

    案例05:文本文件包含了要删除的两个用户id,使用Kettle将文本文件中两个ID对应的t_user1表的数据删除。

    ④排序记录组件

    案例06:使用Kettlet_user表中的用户数据,按照年龄升序排序,并将排序后的数据装载到Excel

    ⑤switch/case组件

    案例07:t_user 表中读取所有用户数据,我们需要将性别为男的用户导出到一个Excel、性别为女的导出到另外一个Excel

    ⑥SQL脚本组件

    案例08:使用Kettle执行SQL脚本,将 t_user1 表中的数据清空。

    案例09:用户输入指定参数来删除t_user1表中对应数据

    ⑦JOB(作业)开发

    案例10:每5秒钟执行一次Kettle转换,也就是每5秒钟将Excel中的数据抽取并装载到MySQL

    ⑧基于Linux系统使用kettle

    案例11: /root/kettle/user.txt数据抽取到 /root/kettle/out_user.xls 表格中

    案例12:5秒钟执行一次Kettle转换,也就是每5秒钟将Excel中的数据抽取并装载到MySQL

    2、总结

    在学习大数据的过程中,我们可能经常会遇到各种数据的处理,转换,迁移,所以为了以后更好的学习大数据,掌握一种etl工具的使用,必不可少。 

  • 相关阅读:
    供安全工程师实用的SOC模型
    Windows-NTFS-ADS在渗透测试中的利用
    域安全的基础知识上
    Linux下利用动态链接劫持库函数并注入代码
    多线程sshd爆破程序代码
    Windows NTLM Hash和Hash传递、Key传递攻击
    替换linux系统文件etc下passwd文件的字段获取真正的root权限
    攻防对抗中常用的windows命令(渗透测试和应急响应)
    获取权限后权限维持的方法
    RocketMQ启动mqbroker.cmd没反应
  • 原文地址:https://www.cnblogs.com/MoooJL/p/13509648.html
Copyright © 2020-2023  润新知