scala mapPartitionsWithIndex函数的使用

scala mapPartitionsWithIndex函数的使用

var rdd1=sc.makeRDD(Array((1,"A"),(2,"B"),(3,"C"),(4,"D")),2)

rdd1.partitions.size

res20:int=2

rdd1.mapPartitionsWithIndex{

(partIdx,iter)=>{

var part_map=scala.collection.mutable.Map[string,List[(Int,String)]]()

while(iter.hasNext)

{

var part_name="part_"+partIdx;

var elem=iter.next();

if(part_map.contains(part_name)){

var elems=part_map(part_name)

elems::=elem

part_map(part_name)=elems

} else{

part_map(part_name)=List[(Int,String)]{elem}

}

}

part_map.iterator

}}.collect

-----------------------------------------------------------

val three=sc.textFile("/tmp/spark/three",3)
var idx=0
import org.apache.spark.HashPartitioner

val res=three.filter(_.trim().length>0).map(num=>(num.trim.toInt,"")).partitionBy(new HashPartitioner(1)).sortBykey().map
(t=>{
idx+=1
(idx,t._1)
}).collect.foreach(x=>println(x._1+" "+x._2))

------------------------------------------------------------------

spark算子：partitionBy对数据进行分区
https://www.cnblogs.com/yy3b2007com/p/7800793.html

Hadoop经典案例Spark实现（三）——数据排序

https://blog.csdn.net/kwu_ganymede/article/details/50475788
相关阅读:
*VC编程规范
 C++的va_start() va_end()函数应用（转）
* C++类的分解，抽象类与纯虚函数的需要性
 *C++中的回调
 *C++中使用接口
 C++模版使用
 *获取mac地址的方法
 *数字——字符之间的转换（转）
eclipse雕虫小技一：eclipse打开文件目录
 Hibernate升级后注解方式的对象关系映射
原文地址：https://www.cnblogs.com/chengjun/p/8954515.html