ADF 第五篇：转换数据

Azure Data Factory 系列博客：

映射数据流（Mapping Data Flow）的核心功能是转换数据，数据流的结构分为Source、转换和Sink（也就是Destination），这种结构非常类似于SSIS的数据流。

在数据流中，数据就像流水（stream）一样，从上一个组件，流向下一个组件。组件之间有graph相连接，把各个组件连接为一个转换流（transformation stream），在数据流面板中，graph显示为一根线，用于表示数据从一个组件流向另一个组件的路径。

转换组件是数据流的核心组件，每一个转换组件都有输入和输出，接收上一个路径上的组件输入的数据，并向下一个路径上的组件输出数据。

一，创建映射数据流面板

打开一个数据工厂，切换到Author面板中，从“Factory Resources”中选择“Data flows”，从后面的“...” (Actions)中选择“New mapping dataflow”，新建数据流面板：

初始的数据流面板如下图所示，dataflow1是数据流面板的名称，面板的中央是画布，可以向画布中添加Source、转换组件和Sink（destination）。

从dataflow的面板中点击“Add Source”为数据流添加源，添加数据源之后，source1是源的名称，右下方有一个“+”号，表示为源添加转换功能。

在选中Source之后，面板中央的下方区域显示为Source的属性面板，

1，Source setting 面板

Source settings 用于设置Source的属性，常用的Source属性是Source type（源类型），最常用的类型是Dataset，表示从Dataset中获取数据。

2，Optimize 面板

Optimize 选项卡用于设置分区架构，可以设置Partition option、Partition type和 Number of partitions，分区会优化数据流的性能。

3，Inspect面板

Inspect 选项卡用于显示数据流的元数据，该选项卡是一个只读的视图，从该选项卡中可以看到数据流的列数量（column counts），列变化、增加的列、类的数据类型、列的顺序等。

点击Source右小角的“+”号，为源添加转换功能，这是数据流的核心功能，常用的转换功能分为四组：Multiple inputs/outputs、Schema modifier、Row modifier和Destination。

1，多输入/输出（Multiple inputs/outputs）

Join：用于表示连接，把多个Source（Input）连接成一个输出流
Conditional Split：条件拆分，把一个Source 按照条件拆分成多个输出流
Exists：需要两个输入Left stream和Right stream，按照指定的条件和Exist type输出数据，如果Exist type是Exists，那么表示输出Left Stream存在于Right stream的数据；如果Exist type是Doesn't exist，那么表示输出Left stream不存在于Right stream的数据。
Union：把多个输入合并
Lookup：需要两个输入，Primary stream和Lookup stream，把Primary stream中存在于Lookup stream中的数据输出。

2，Schema Modifier

对列进行修改：