DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
第一步: 下载datax 工具包(直接下载源码编译的时候,老是报错)
下载后解压至本地某个目录,进入bin目录,即可运行同步作业:
$ python datax.py {YOUR_JOB.json}
第二步:进入bin目录下 新建配置文件,可以自己新建也可以通过命令生成模板
可以通过命令查看配置模板: python datax.py -r {YOUR_READER} -w {YOUR_WRITER}
python datax.py -r streamreader -w streamwriter
第三步:把上面生成json内容保存在 test.json 文件后,修改里面的内容
{
"job": {
"content": [
{
"reader": {
"name": "streamreader",
"parameter": {
"sliceRecordCount": 10,
"column": [
{
"type": "long",
"value": "10"
},
{
"type": "string",
"value": "hello,你好,世界-DataX"
}
]
}
},
"writer": {
"name": "streamwriter",
"parameter": {
"encoding": "UTF-8",
"print": true
}
}
}
],
"setting": {
"speed": {
"channel": 5
}
}
}
}
第四步: 启动datax
python datax.py ./test.json