• reduceByKey、groupByKey和combineByKeyWithClassTag


    groupByKey

    • 没有 mergeValue 操作,即没有map端combine操作,增加网络传输次数
    • 生成CompactBuffer对象,占用资源
    • 可重新指定分区

    groupBy

    • 增加传输次数
    • 保存生成CompactBuffer对象并保存key占用资源

    reduceByKey

    • 有 mergeValue操作,即map端有预聚合,减少网络传输次数
    • 不能改变v的返回值类型
    • 可重新指定分区

    combineByKeyWithClassTag  //最根本方法

    def combineByKeyWithClassTag[C](
          createCombiner: V => C,  //map端,改变 v 的返回值类型
          mergeValue: (C, V) => C,  //map端,预聚合
          mergeCombiners: (C, C) => C,  //reduce端,聚合
          partitioner: Partitioner,  //分区对象
          mapSideCombine: Boolean = true,  //是否开启map端聚合,默认开启
          serializer: Serializer = null)
          
    def combineByKeyWithClassTag[C](
          createCombiner: V => C,
          mergeValue: (C, V) => C,
          mergeCombiners: (C, C) => C,
          numPartitions: Int)
    
    def combineByKeyWithClassTag[C](
          createCombiner: V => C,
          mergeValue: (C, V) => C,
          mergeCombiners: (C, C) => C)
    aggregateByKey
    def aggregateByKey[U: ClassTag](zeroValue: U, partitioner: Partitioner)(seqOp: (U, V) => U,
          combOp: (U, U) => U)
          
    def aggregateByKey[U: ClassTag](zeroValue: U, numPartitions: Int)(seqOp: (U, V) => U,
          combOp: (U, U) => U)
    
    def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,
          combOp: (U, U) => U)
    渐变 --> 突变
  • 相关阅读:
    DOM总结
    BOM总结
    备忘录设计模式
    策略模式
    迭代器模式
    观察者模式
    装饰模式
    脚本工具(获取某个文件夹下的所有图片属性批量生成css样式)
    ajax传输中文乱码解决方法
    java Serialization and Deserializaton
  • 原文地址:https://www.cnblogs.com/lybpy/p/9788472.html
Copyright © 2020-2023  润新知