• 1 datax 安装和简单使用


    DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
     
    第一步: 下载datax 工具包(直接下载源码编译的时候,老是报错)
        下载后解压至本地某个目录,进入bin目录,即可运行同步作业:
    $ python datax.py {YOUR_JOB.json}
     
    第二步:进入bin目录下 新建配置文件,可以自己新建也可以通过命令生成模板
    可以通过命令查看配置模板: python datax.py -r {YOUR_READER} -w {YOUR_WRITER}
     
    python datax.py -r streamreader -w streamwriter
     
    第三步:把上面生成json内容保存在 test.json 文件后,修改里面的内容
    {
      "job": {
        "content": [
          {
            "reader": {
              "name": "streamreader",
              "parameter": {
                "sliceRecordCount": 10,
                "column": [
                  {
                    "type": "long",
                    "value": "10"
                  },
                  {
                    "type": "string",
                    "value": "hello,你好,世界-DataX"
                  }
                ]
              }
            },
            "writer": {
              "name": "streamwriter",
              "parameter": {
                "encoding": "UTF-8",
                "print": true
              }
            }
          }
        ],
        "setting": {
          "speed": {
            "channel": 5
           }
        }
      }
    }
     
     
    第四步: 启动datax
    python datax.py ./test.json
     
  • 相关阅读:
    Numpy数据处理函数
    数据库-创建表
    描述统计学:表格法和图形法
    最短路 || POJ 1511 Invitation Cards
    搜索 || DFS || UOJ 146 信息传递
    最短路 || UOJ 19 寻找道路
    最短路 || POJ 1847 Tram
    博弈论
    筛选法 || POJ 3292 Semi-prime H-numbers
    团队第一次作业
  • 原文地址:https://www.cnblogs.com/spicy/p/11155507.html
Copyright © 2020-2023  润新知