简介:
DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统, 每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。
1、架构
FRAMEWORK + PLUGIN的形式
自己实现数据源的reader和writer
目前的插件已经支持以下数据源
数据流程
2、使用方式
https://github.com/alibaba/DataX/blob/master/userGuid.md
方式一:
直接下载工具包,执行
python datax.py {YOUR_JOB.json}
---目前项目中是这种方式,使用dolphinscheduler定时执行该脚本
json配置示例如下,读取stream中数据打印到控制台
示例二:
方式二:
源码编译
3、注意问题
优点:
https://zhuanlan.zhihu.com/p/81817787 见该文章优点总结
扩展:
DATAX-WEB