序:
本文首先介绍DataX使用(编写配置文件的方式)之MongoDB中的数据导出到HDFS上的一些注意事项,datax安装没有什么坑,所以本文不对此进行详细介绍,详细安装过程请自行查看官网。
一、datax的基本使用
1、datax的目录结构
目录说明:
backup:本人自己创建的备份目录
,因为后续使用过程中涉及到更改源码,将原生的jar包备份到此文件夹中
bin:datax的命令
conf:datax的配置文件
job:任务编写的json配置文件存放的位置,官方的demo也在这个目录下
log:运行日志爱
plugin:reader/writer的源码包,后续可以自己更改源码上传替换
script:没啥用
tmp:临时目录
2、查看任务模板
python ./datax.py -r mongodbreader -w hdfswriter
{ "job": { "content": [ { "reader": { "name": "mongodbreader", "parameter": { "address": [], "collectionName": "", "column": [], "dbName": "", "userName": "", "userPassword": "" } }, "writer": { "name": "hdfswriter", "parameter": { "column": [], "compress": "", "defaultFS": "", "fieldDelimiter": "", "fileName": "", "fileType": "", "path": "", "writeMode": "" } } } ], "setting": { "speed": { "channel": "" } } } }
按照模板填写对应的服务器地址,库,表名,文件名,地址,并行度等即可使用
-----------------------写不动了,困了,想起来再接着写---------------------------