• hadoop job解决大数据量关联时数据倾斜的一种办法


    转自:http://www.cnblogs.com/xuxm2007/archive/2011/09/01/2161929.html

    http://www.geminikwok.com/2011/04/02/hadoop-job解决大数据量关联时数据倾斜的一种办法/

    数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。

    用hadoop程序进行数据关联时,常碰到数据倾斜的情况,这里提供一种解决方法。

    (1)设置一个hash份数N,用来对条数众多的key进行打散。

    (2)对有多条重复key的那份数据进行处理:从1到N将数字加在key后面作为新key,如果需要和另一份数据关联的话,则要重写比较类和分发类(方法如上篇《hadoop job解决大数据量关联的一种方法》)。如此实现多条key的平均分发。

    int iNum = iNum % iHashNum;

    String strKey = key + CTRLC + String.valueOf(iNum) + CTRLB + “B”;


    (3)上一步之后,key被平均分散到很多不同的reduce节点。如果需要和其他数据关联,为了保证每个reduce节点上都有关联的key,对另一份单一key的数据进行处理:循环的从1到N将数字加在key后面作为新key

    for(int i = 0; i < iHashNum; ++i){

    String strKey =key + CTRLC + String.valueOf(i) ;

    output.collect(new Text(strKey), new Text(strValues));}

    以此解决数据倾斜的问题,经试验大大减少了程序的运行时间。但此方法会成倍的增加其中一份数据的数据量,以增加shuffle数据量为代价,所以使用此方法时,要多次试验,取一个最佳的hash份数值。

    ======================================

    用上述的方法虽然可以解决数据倾斜,但是当关联的数据量巨大时,如果成倍的增长某份数据,会导致reduce shuffle的数据量变的巨大,得不偿失,从而无法解决运行时间慢的问题。

    有一个新的办法可以解决 成倍增长数据 的缺陷:

    在两份数据中找共同点,比如两份数据里除了关联的字段以外,还有另外相同含义的字段,如果这个字段在所有log中的重复率比较小,则可以用这个字段作为计算hash的值,如果是数字,可以用来模hash的份数,如果是字符可以用hashcode来模hash的份数(当然数字为了避免落到同一个reduce上的数据过多,也可以用hashcode),这样如果这个字段的值分布足够平均的话,就可以解决上述的问题。-

    第二种方法并不好把握,也不是很通用

  • 相关阅读:
    黑马程序员简易聊天器笔记
    黑马程序员 最简单的浏览器
    Java 窗体布局
    黑马程序员交通系统
    黑马程序员–java 网络处理
    Swing入门级项目全程实录学习总结
    Swing入门级项目全程实录第7讲
    Swing入门级项目全程实录第3讲
    Swing入门级项目全程实录第2讲
    HTML基础教程
  • 原文地址:https://www.cnblogs.com/cxzdy/p/4936443.html
Copyright © 2020-2023  润新知