ETL笔记

对于数据仓库以及ETL的知识，我基本上是个门外汉。一切都得从头开始，记个笔记，方便自已了解学习进度。

    首先，我们来了解最基本的定义：
    嗯，也有人将ETL简单称为数据抽取。至少在未学习之前，领导告诉我的是，你需要做一个数据抽取的工具。
    其实呢，抽取是ETL中的关键环节，顾名思义，也就将数据从不同的数据源中抓取(复制)出来。
    太简单了！
    上面的解释无首无尾，有点象能让你吃饱的第七个烧饼，
    仔细一想，抽取是不可能单独存在，我们需要将与之关联的一些其它环节拿出来。

    于是，得到ETL的定义：
    将数据抽取（Extract）、转换（Transform）、清洗（Cleansing）、装载（Load）的过程。
    好的，既然到了这一个层次，我们完全会进一步展开联想，引出上面这个抽象事件的前因后果，

    抽取的源在哪里？
    装载的目的又是什么呢？

    抽取源：大多数情况下，可以认为是关系数据库，专业一点，就是事务处理系统(OLTP)。当然，广义一点，可能会是其它数据库或者是文件系统。
    目的地：OK，我们希望是数据仓库。数据仓库是啥？在学习之前，它对我来说是个抽象的怪物，看过一些简单的资料之后，才了解这个怪物一点都不怪。堆积用来分析的数据的仓库。是了，是用来分析的，于是，它区别于OLTP中的数据存储。

    然后，我们来看看为什么要ETL？
    在我看来，有两个原因。
    一：性能将需要分析的数据从OLTP中抽离出来，使分析和事务处理不冲突。咦？这不是数据仓库的效果吗？是了，
数据仓库，大多数情况下，也就是通过ETL工具来生成地。
    二：控制用户可以完全控制从OLTP中抽离出来的数据，拥有了数据，也就拥有了一切。
    嗯，OLAP分析，数据挖掘等等等……。

    最后，总结一下，
    从资料上看，ETL是一门大学问，对于大学问，实在有些怕怕，所以，我觉得应该停下来想一想，下一步我该干点啥？
    嗯，时不我待，我没有办法一切从头开始，
    是了，从应用出发，看看现在工作中，最急需的是什么？

    鸭子要变成一盘菜，并不是举手将之置于油锅之劳。
    OK，要将生米变为熟饭，鸭子放上大盘，一堆废话之后，我得先看看厨房里都有了一些啥？

相关阅读:
pyCharm专业版下载以及永久破解2099年过期
win10安装最新的python3解释器
Ubuntu软件源更换
Ubuntu安装软件命令
Target runtime Apache Tomcat 6.0 is not defined
ajaxFileUpload 报这错jQuery.handleError is not a function
怎样编写高质量的Java代码
java 内存监控工具 jstat jmap
jquery中attr和prop的区别
javax.mail.MessagingException: 501 Syntax: HELO hostname

原文地址：https://www.cnblogs.com/huangchuansen/p/ETL.html