spark foreachPartition算子

1.foreach

    val list = new ArrayBuffer()
    myRdd.foreach(record => {
      list += record
    })

2.foreachPartition

    val list = new ArrayBuffer
    rdd.foreachPartition(it => {
      it.foreach(r => {
        list += r
      })
    })

说明：

foreachPartition属于算子操作，可以提高模型效率。比如在使用foreach时，将RDD中所有数据写Mongo中，就会一条数据一条数据地写，每次函数调用可能就会创建一个数据库连接，此时就势必会频繁地创建和销毁数据库连接，性能是非常低下；但是如果用foreachPartitions算子一次性处理一个partition的数据，那么对于每个partition，只要创建一个数据库连接即可，然后执行批量插入操作，此时性能是比较高的。

参考官网的说明：

获取每个分区的索引：

rdd.foreachPartition { partitionOfRecords: Iterator[Row] =>
      partitionOfRecords.foreach((record: Row) => {
        println(TaskContext.getPartitionId)
        print(record.get(0))
        print(record.get(1))
        print(record.get(2))
      })
    }

相关阅读:
减肥 day1
这两天的学习内容
小马激活工具激活系统导致系统崩溃
mac OS X下Java项目环境搭建+IntelliJ IDEA Jrebel插件安装与破解+Office 2016破解版安装
JDK 动态代理实现原理
php ajax提交post请求出现数组被截断情况的解决方法
mac OS X下git代码行统计命令
mac OS X下安装Redis及Thinkphp3.1使用Redis
linux服务器git pull/push时提示输入账号密码之免除设置
linux服务器修改ftp默认21端口方法

原文地址：https://www.cnblogs.com/chong-zuo3322/p/15512912.html