sqoop优化

sqoop优化

sqoop优化

batch

语法：--batch,指示使用批处理模式执行底层的SQL语句。在导出数据时，该参数能够将相关的SQL语句组合在一起批量执行，也可以使用有效的API在JDBC接口中配置批处理参数

Dsqoop.export.records.per.statement

指定批处理数据条数，可和batch联合使用

boundary-query

可解决数据倾斜问题

–boundary-query: select 1 as MIN , sum(1) as MAX from table where xxx

具体原理就是通过ROWNUM() 生成一个严格均匀分布的字段，然后指定为分割字段

指定导入数据的范围值。当仅使用split-by参数指定的分隔列不是最优时，可以使用boundary-query参数指定任意返回两个数字列的查询。它的语法如下：--boundary-

query select min(id), max(id) from<tablename>。在配置boundary-query参数时，查询语句中必须连同表名一起指定min(id)和max(id)。如果没有配置该参数，默认时Sqoop使用select

min(<split-by>), max(<split-by>) from<tablename>查询找出分隔列的边界值。

fetch-size

导入数据时，指示每次从数据库读取的记录数。使用下面的语法：--fetch-size=<n>，其中<n>表示Sqoop每次必须取回的记录数，默认值为1000。可以基于读取的数据

量、可用的内存和带宽大小适当增加fetch-size的值。某些情况下这可以提升25%的性能。

num-mappers

该参数的语法为--num-mappers <number ofmap tasks>，用于指定并行数据导入的map任务数，默认值为4。应该将该值设置成低于数据库所支持的最大连接数。

split-by

该参数的语法为--split-by <column name>，指定用于Sqoop分隔工作单元的列名，不能与--autoreset-to-one-mapper选项一起使用。如果不指定列名，Sqoop基于主键列分隔工作单元。
相关阅读:
codevs 2602 最短路径问题x
codevs 1077 多源最短路x
2010TianjinRegional 部分题解
 [CF706D]Vasiliy's Multiset（异或字典树）
[CF710E]Generate a String（DP）
[CF710C]Magic Odd Square（构造）
[CF151B]Phone Numbers（暴力，模拟）
[POJ2104]K-th Number（主席树，静态区间k小）
[CF707D]Persistent Bookcase（离线，DFS）
[CF707C]Pythagorean Triples（数学）
原文地址：https://www.cnblogs.com/EnzoDin/p/14198433.html

热门文章
LeetCode
LeetCode
LeetCode
LeetCode
LeetCode
LeetCode
LeetCode
codevs 5960 信使x
洛谷P1576 最小花费x
codevs 1405 牛的旅行x

sqoop优化

batch

Dsqoop.export.records.per.statement

boundary-query

fetch-size

num-mappers

split-by