• 数据同步工具DataX


    1、DataX 基本介绍

    • DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具,致力于实现包括:关系型数据库(MySQL、Oracle等)、HDFS、Hive、HBase、ODPS、FTP等各种异构数据源之间稳定高效的数据同步功能。

    • 设计理念

      • 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。
    • 当前使用现状

      • DataX在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行了6年之久。目前每天完成同步8w多道作业,每日传输数据量超过300TB。

      • 此前已经开源DataX1.0版本,此次介绍为阿里云开源全新版本DataX 3.0,有了更多更强大的功能和更好的使用体验。

      • Github主页地址:https://github.com/alibaba/DataX

    2、DataX 3.0 框架设计

    • DataX 本身作为离线数据同步框架,采用Framework + plugin 架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。
      • Reader
        • Reader 为数据采集模块,负责采集数据源的数据,将数据发送给 Framework。
      • Writer
        • Writer 为数据写入模块,负责不断向 Framework 取数据,并将数据写入到目的端。
      • Framework
        • Framework 用于连接 Reader 和 Writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。

    3、DataX 3.0 插件体系

    • 经过几年积累,DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。DataX目前支持数据如下:

      类型数据源Reader(读)Writer(写)文档
      RDBMS 关系型数据库 MySQL  、
        Oracle  、
        SQLServer  、
        PostgreSQL  、
        DRDS  、
        达梦  、
        通用RDBMS(支持所有关系型数据库)  、
      阿里云数仓数据存储 ODPS  、
        ADS  
        OSS  、
        OCS  、
      NoSQL数据存储 OTS  、
        Hbase0.94  、
        Hbase1.1  、
        MongoDB  、
        Hive  、
      无结构化数据存储 TxtFile  、
        FTP  、
        HDFS  、
        Elasticsearch  

    4、DataX 3.0 核心架构

      • DataX 3.0 支持单机多线程模式完成 数据同步作业,本小节按一个DataX作业生命周期的时序图,从整体架构设计简要说明DataX各个模块之间的相互关系。

      • 核心模块介绍

          1. DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
          1. DataX Job启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。
          1. 切分多个Task之后,DataX Job会调用 Scheduler 模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5。
          1. 每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。
          1. DataX作业运行起来之后, Job监控并等待多个TaskGroup模块任务完成,等待所有TaskGroup任务完成后Job成功退出。否则,异常退出,进程退出值非0。
      • DataX调度流程

        • 举例来说,用户提交了一个DataX作业,并且配置了20个并发,目的是将一个100张分表的mysql数据同步到odps里面。 DataX的调度决策思路是:
            1. DataXJob根据分库分表切分成了100个Task。
            1. 根据20个并发,默认单个任务组的并发数量为5,DataX计算共需要分配4个TaskGroup。
            1. 这里4个TaskGroup平分切分好的100个Task,每一个TaskGroup负责以5个并发共计运行25个Task。

    DataX 安装部署

    安装前置要求
    Linux 使用Centos7
    JDK ( 1.8 以上 )
    Python ( 2.6 以上 ) Centos7 默认安装了Python 2.7

    • 1、访问官网下载安装包

    • 2、上传安装包到服务器hadoop03节点

    • 3、解压安装包到指定的目录中

      tar -zxvf datax.tar.gz -C /bigdata/install
      
    • 4、运行自检脚本测试

      [hadoop@hadoop03 bin]$ cd /bigdata/install/datax/bin
      [hadoop@hadoop03 bin]$ python datax.py ../job/job.json 
      

     

    DataX 实战案例 -- 使用datax实现将mysql数据导入到hdfs

     
    • 需求: 将mysql表student的数据导入到hdfs的 /datax/mysql2hdfs/路径下面去。

    • 1、创建mysql数据库和需要用到的表结构,并导入实战案例需要用到的数据

        [hadoop@hadoop02 ~] mysql -uroot -p123456
        mysql> create database datax;
        mysql> use datax;
        mysql> create table student(id int,name varchar(20),age int,createtime timestamp );
        mysql> insert into `student` (`id`, `name`, `age`, `createtime`) values('1','zhangsan','18','2021-05-10 18:10:00');
        mysql> insert into `student` (`id`, `name`, `age`, `createtime`) values('2','lisi','28','2021-05-10 19:10:00');
        mysql> insert into `student` (`id`, `name`, `age`, `createtime`) values('3','wangwu','38','2021-05-10 20:10:00');
      
    • 2、创建作业的配置文件(json格式)

      • 查看配置模板,执行脚本命令
        [hadoop@hadoop03 datax]$ cd /bigdata/install/datax
        [hadoop@hadoop03 datax]$ python bin/datax.py -r mysqlreader -w hdfswriter
        
        DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
        Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.
        
        Please refer to the mysqlreader document:
             https://github.com/alibaba/DataX/blob/master/mysqlreader/doc/mysqlreader.md 
        
        Please refer to the hdfswriter document:
             https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md 
         
        Please save the following configuration as a json file and  use
             python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json 
        to run the job.
        
        {
            "job": {
                "content": [
                    {
                        "reader": {
                            "name": "mysqlreader", 
                            "parameter": {
                                "column": [], 
                                "connection": [
                                    {
                                        "jdbcUrl": [], 
                                        "table": []
                                    }
                                ], 
                                "password": "", 
                                "username": "", 
                                "where": ""
                            }
                        }, 
                        "writer": {
                            "name": "hdfswriter", 
                            "parameter": {
                                "column": [], 
                                "compress": "", 
                                "defaultFS": "", 
                                "fieldDelimiter": "", 
                                "fileName": "", 
                                "fileType": "", 
                                "path": "", 
                                "writeMode": ""
                            }
                        }
                    }
                ], 
                "setting": {
                    "speed": {
                        "channel": ""
                    }
                }
            }
        }
        
      • 其中hdfswriter插件文档
    • 3、根据模板写配置文件

      • 进入到 /bigdata/install/datax/job 目录,然后创建配置文件 mysql2hdfs.json, 文件内容如下:
        {
            "job": {
                "setting": {
                    "speed": {
                         "channel":1
                    }
                },
                "content": [
                    {
                        "reader": {
                            "name": "mysqlreader",
                            "parameter": {
                                "username": "root",
                                "password": "123456",
                                "connection": [
                                    {
                                        "querySql": [
                                            "select id,name,age,createtime from student where age < 30;"
                                        ],
                                        "jdbcUrl": [
                                            "jdbc:mysql://hadoop02:3306/datax"
                                        ]
                                    }
                                ]
                            }
                        },
                          "writer": {
                            "name": "hdfswriter",
                            "parameter": {
                                "defaultFS": "hdfs://hadoop01:8020",
                                "fileType": "text",
                                "path": "/datax/mysql2hdfs/",
                                "fileName": "student.txt",
                                "column": [
                                    {
                                        "name": "id",
                                        "type": "INT"
                                    },
                                    {
                                        "name": "name",
                                        "type": "STRING"
                                    },
                                    {
                                        "name": "age",
                                        "type": "INT"
                                    },
                                    {
                                        "name": "createtime",
                                        "type": "TIMESTAMP"
                                    }
                                ],
                                "writeMode": "append",
                                "fieldDelimiter": "\t",
                                "compress":"gzip"
                            }
                        }
                    }
                ]
            }
        }
        
    • 4、启HDFS, 创建目标路径

      [hadoop@hadoop01 ~]$ start-dfs.sh 
      [hadoop@hadoop01 ~]$ hdfs dfs -mkdir -p /datax/mysql2hdfs
      
    • 5、启动DataX

      [hadoop@hadoop03 bin]$ cd /bigdata/install/datax
      [hadoop@hadoop03 bin]$ python bin/datax.py job/mysql2hdfs.json 
      
    • 6、观察控制台输出结果

      同步结束,显示日志如下:
      
      2021-06-18 01:41:26.452 [job-0] INFO  JobContainer - 
      任务启动时刻                    : 2021-06-18 01:41:14
      任务结束时刻                    : 2021-06-18 01:41:26
      任务总计耗时                    :                 11s
      任务平均流量                    :                3B/s
      记录写入速度                    :              0rec/s
      读出记录总数                    :                   2
      读写失败总数                    :                   0
      
    • 7、查看HDFS上文件生成,并验证结果

      将上边结果下载解压后打开,可以看到里面的结果和mysql中结果对比

    •  
     
     

    DataX 实战案例 -- 使用datax实现将hdfs数据导入到mysql表中

     
    • 需求: 将hdfs上数据文件 user.txt 导入到mysql数据库的user表中。

    • 1、创建作业的配置文件(json格式)

      • 查看配置模板,执行脚本命令
        [hadoop@hadoop03 ~]$ cd /bigdata/install/datax
        [hadoop@hadoop03 datax]$ python bin/datax.py -r hdfsreader -w mysqlwriter
        
        DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
        Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.
        
        Please refer to the hdfsreader document:
             https://github.com/alibaba/DataX/blob/master/hdfsreader/doc/hdfsreader.md 
        
        Please refer to the mysqlwriter document:
             https://github.com/alibaba/DataX/blob/master/mysqlwriter/doc/mysqlwriter.md 
         
        Please save the following configuration as a json file and  use
             python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json 
        to run the job.
        
        {
            "job": {
                "content": [
                    {
                        "reader": {
                            "name": "hdfsreader", 
                            "parameter": {
                            "column": [], 
                            "defaultFS": "", 
                                "encoding": "UTF-8", 
                                "fieldDelimiter": ",", 
                                "fileType": "orc", 
                                "path": ""
                            }
                        }, 
                        "writer": {
                            "name": "mysqlwriter", 
                            "parameter": {
                                "column": [], 
                                "connection": [
                                    {
                                        "jdbcUrl": "", 
                                        "table": []
                                    }
                                ], 
                                "password": "", 
                                "preSql": [], 
                                "session": [], 
                                "username": "", 
                                "writeMode": ""
                            }
                        }
                    }
                ], 
                "setting": {
                    "speed": {
                        "channel": ""
                    }
                }
            }
        }
        
      • 其中hdfsreader插件文档
    • 2、根据模板写配置文件

      • 进入到 /bigdata/install/datax/job 目录,然后创建配置文件 hdfs2mysql.json, 文件内容如下:
        {
            "job": {
                "setting": {
                    "speed": {
                         "channel":1
                    }
                },
                "content": [
                    {
                        "reader": {
                            "name": "hdfsreader",
                            "parameter": {
                            "defaultFS": "hdfs://hadoop01:8020",
                                "path": "/user.txt",                  
                                "fileType": "text",
                                "encoding": "UTF-8",
                                "fieldDelimiter": "\t",
                                "column": [
                                       {
                                        "index": 0,
                                        "type": "long"
                                       },
                                       {
                                        "index": 1,
                                        "type": "string"
                                       },
                                       {
                                        "index": 2,
                                        "type": "long"
                                       }
                                ]
                              }
                          },
                       "writer": {
                            "name": "mysqlwriter",
                            "parameter": {
                                "writeMode": "insert",
                                "username": "root",
                                "password": "123456",
                                "column": [
                                    "id",
                                    "name",
                                    "age"
                                ],
                                "preSql": [
                                    "delete from user"
                                ],
                                "connection": [
                                    {
                                        "jdbcUrl": "jdbc:mysql://hadoop02:3306/datax?useUnicode=true&characterEncoding=utf-8",
                                        "table": [
                                            "user"
                                        ]
                                    }
                                ]
                            }
                        }
                    }
                ]
            }
        }
        
        
    • 3、准备HDFS上测试数据文件 user.txt

      • user.txt文件内容如下
        1	zhangsan  20
        2	lisi  29
        3	wangwu  25
        4	zhaoliu  35
        5	kobe  40
        
      • 文件中每列字段通过\t 制表符进行分割,上传文件到hdfs上
        [hadoop@hadoop03 ~]$ hdfs dfs -put user.txt /
        
    • 4、创建目标表

      mysql> create table datax.user(id int,name varchar(20),age int);
      
    • 5、启动DataX

      [hadoop@hadoop03 ~]$ cd /bigdata/install/datax
      [hadoop@hadoop03 bin]$ python bin/datax.py job/hdfs2mysql.json 
      
    • 6、观察控制台输出结果

      同步结束,显示日志如下:
      
      任务启动时刻                    : 2021-06-18 12:02:47
      任务结束时刻                    : 2021-06-18 12:02:58
      任务总计耗时                    :                 11s
      任务平均流量                    :                4B/s
      记录写入速度                    :              0rec/s
      读出记录总数                    :                   5
      读写失败总数                    :                   0
      
      SHELL 复制 全屏
    • 7、查看user表数据

     
     
  • 相关阅读:
    20145209 《信息安全系统设计基础》第5周学习总结
    20145209 《信息安全系统设计基础》第3周学习总结
    20145209 《信息安全系统设计基础》第1周学习总结
    20145209 《信息安全系统设计基础》第0周学习总结
    单调栈&单调队列入门
    GYM 101617 F
    codeforces 13 D
    codeforces 13 b
    G102040I
    19南昌网络赛L
  • 原文地址:https://www.cnblogs.com/hanease/p/16218317.html
Copyright © 2020-2023  润新知