• Sqoop 并行度调整 m 以及 splitby


    Sqoop 并行化原理

    Sqoop并行化是启多个map task实现的,-m(或--num-mappers)参数指定map task数,默认是四个。

    当指定为1时,可以不用设置split-by参数,不指定num-mappers时,默认为4,当不指定或者num-mappers大于1时,需要指定split-by参数。并行度不是设置的越大越好,map task的启动和销毁都会消耗资源,而且过多的数据库连接对数据库本身也会造成压力。在并行操作里,首先要解决输入数据是以什么方式负债均衡到多个map的,即怎么保证每个map处理的数据量大致相同且数据不重复。--split-by指定了split column,
    在执行并行操作时(多个map task),Sqoop需要知道以什么列split数据,其思想是:

        1、先查出split column的最小值和最大值
    
        2、然后根据map task数对(max-min)之间的数据进行均匀的范围切分

        例如 id 作为split column,其最小值是0、最大值1000,如果设置4个map数,每个map task执行的查询语句类似于:

    SELECT * FROM sometable WHERE id >= lo AND id < hi,

    每个task里(lo,hi)的值分别是 (0, 250), (250, 500), (500, 750), and (750, 1001)。

    注意

    Sqoop不能在多列字段上进行拆分,如果没有索引或者有组合键,必须显示设置splitting column;默认的主键作为split column,如果表里没有主键或者没有指定--split-by,就要设置num-mappers 1或者--autoreset-to-one-mapper,这样就只会启动一个task。

    从上面的分析过程可以看到Sqoop以理想化方式根据split column将数据切分成多个范围,如果split键的值不是均匀分布,每个任务分配的数据量可能相差很大、导致数据倾斜。

    耗时快慢和源端RDBMS服务器,表大小,列数量、网络带宽有较大关系,生产环境中,为了防止主库被Sqoop抽崩,一般从备库中抽取数据。

    一般RDBMS的导出速度控制在60~80MB/s,每个 map 任务的处理速度5~10MB/s 估算,即 -m 参数一般设置4~8,表示启动 4~8 个map 任务并发抽取。

    –split-by对非数字类型的字段支持不好。一般用于主键及数字类型的字段

    sqoop是分布式工作,被抽取数据库权限要开放给每个节点而不是某个节点

    原文链接:https://blog.csdn.net/u010003835/article/details/106604085

  • 相关阅读:
    blktrace分析IO
    Mac-配置SecureCRT
    Mac-安装itellij idea
    Mac-sublime text 3破解版
    Mac-item+zsh
    Mac-安装homebrew
    Mac-装机
    Mac-WIFI总是断网
    Git-ssh登录github
    Git-回滚操作
  • 原文地址:https://www.cnblogs.com/chong-zuo3322/p/15626459.html
Copyright © 2020-2023  润新知