下载页面地址:https://pan.baidu.com/s/10J83j25_ohC4O3XHl9diDQ

提取码: cq6n 

二:安装

将下载后的压缩包直接解压安装到电脑上就可以了

 三:测试

要想运行datax先要安装python环境:

检验是否存在python环境在cmd中输入python就会知道如果已经有python环境就如下所示出现版本等信息;

进入安装好的datax目录下bin目录中,里面有datax.py文件,可以在cmd中测试(此处是我自己的目录,具体根据自己的目录来输入命令):

python E:大数据清洗工具DataXdataxindatax.py E:大数据清洗工具DataXdataxjobjob.json

 

下面是成功截图

以上运行结果乱码:在命令行输入:

       CHCP 65001

 另外,如果你的python版本是3.x的话,则需要修改一下bin文件夹下的三个.py文件,参考链接地址为:https://github.com/HxYyWw/DatatX_python3/tree/master

四:应用(csv文件写入mysql)

 csv文件

 数据库建表

 test.json文件

{
    "job": {
        "setting": {
            "speed": {
                "channel": 3
            }
        },
        "content": [
            {
                 "reader": {
                    "name": "txtfilereader",
                    "parameter": {
                        "path":["C:/Users/ASUS/Desktop/test.csv"],
                        "encode":"gbk",
                        "column" : [
                            {
                                "index":0,
                                "type":"string"
                            },{
                                        "index":1,
                                "type":"string"
                            }
                        ],
                        "fieldDelimiter":","
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "writeMode": "insert",
                        "username": "root",
                        "password": "995893",
                        "column": [
                            "name",
                            "value"
                        ],
                        "preSql": [
                            "truncate table datax"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://localhost:3306/test?useUnicode=true&characterEncoding=utf-8",
                                "table": [
                                    "datax"
                                ]
                            }
                        ]
                    }
                }
            }
        ]
    }
}

其中test.json文件主要的两部分:reader和writer两部分。

    1,reader解读

      “name”属性对应着读取对象的类型

      “parameter”中path属性对应读取对象的路径、encode属性对应读取对象的编码、column属性对应读取对象的表头(其中index属性对应表头的字段顺序,type对应字段的类型)、filedDelimiter属性对应读取对象的分隔符。

    2,writer解读

      “name”属性对应着读取对象的类型

      “parameter”中writeMote属性表示操作、username属性对应MySQL的用户名、password对应MySQL的密码、column对应的是表头字段(注:这里的字段顺序需要和读取对象的顺序一样)、preSql属性表示写入前进行的sql语句、connection属性中jdbcUrl表示数据库的连接路径,table表示表名

cmd运行命令:

1 python E:大数据清洗工具DataXdataxindatax.py E:大数据清洗工具DataXdataxjob	est.json

  运行结果:

 数据库中

 如果连接数据库失败了,可能是没有jar包,在lib里放上连接Mysql数据库的jar包就好了。