• Spark中reduceByKey(_+_)的说明


    比如我的内存中存在如下的以key-value形式的数据集(RDD):

    hello:1   sparkSubmit:1   red:1   sparkSubmit:1    hello:2    hello:1    hello:4    red:1   red:1   red:1 ... ...

    reduceByKey的作用对象是(key, value)形式的RDD,而reduce有减少、压缩之意,reduceByKey的作用就是对相同key的数据进行处理,最终每个key只保留一条记录。

    保留一条记录通常有两种结果。一种是只保留我们希望的信息,比如每个key出现的次数。第二种是把value聚合在一起形成列表,这样后续可以对value做进一步的操作

    以上面的数据集为例,在spark中比如是word:RDD[(String, Int)]  两个字段分别是word、单个单词在不同文件中出现的次数,现在我们需要统计每个单词出现的总次数。

    我们可以这样写:

    val word = rdd1.reduceByKey((x,y) => x+y)

    对上述的写法简化一下:

    val word= rdd1.reduceByKey(_+_)

    reduceByKey

    reduceByKey会寻找相同key的数据,当找到这样的两条记录时会对其value(分别记为x,y)做(x,y) => x+y的处理,即只保留求和之后的数据作为value。反复执行这个操作直至每个key只留下一条记录。

    如果觉得简化后的写法比较难易理解,先看不简化之前的写法是这样理解的,以上面的数据集为例,从左到右第一个hello这个key对应的值是1,这个1就是不简化写法之前的x,然后继续找从左到右第五个又是hello,那么第二个找到的helloKey对应的value是2,这个2就是不简化写法之前的y。然后reduceByKey就对当前找到的这两个相同的key的value做一个加法,然后得到一个新的key-value,这个新的的key-value的key就是hello而value就是相加以后的结果3,然后继续找第三个key为hello的单词,找到以后和刚才相加以后得到的新的hello:3继续相加,此时你可以把之前相加得到的3作为x,把找到的第三个key为hello的单词对应的value作为y,然后继续相加,再得到第二个新的key-vlaue,这个第二个新的key-vlaue的key为hello,value为4,然后这个第二个新的vlaue4又作为x,然后在继续找其他的相同的key,找到后以此类推。

    而简化以后的写法第一个_下划线就代表x,第二个_下划线代表y。然后原理就是上面写的

  • 相关阅读:
    木马手工查杀和隐藏控制技术分析
    Metasploit学习笔记
    wireshark和nmap
    kali 开启键盘背光灯 && 自定义开启终端
    解决kali linux 2016.2实体机安装后root用户没有声音
    解决wireshark打开错误
    kali 源文件 更改和使用 更新日期:2018.04.21
    修改linux(kali)和windows双系统下默认启动系统和启动延时
    U盘刻录kali linux启动盘提示找不到镜像解决方案
    java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkState(ZLjava/lang/String;Ljava/lang/Object;Ljava/lang/Object;Ljava/lang/Object;)V
  • 原文地址:https://www.cnblogs.com/zhangrui153169/p/11375643.html
Copyright © 2020-2023  润新知