1.今天完成了昨天剩下的spark实验三的内容(关于sbt的安装和使用)
2.接下来学习RDD初级编程,继续完成实验四
知识总结:
spark的rdd编程中
键值对rdd通常用到的方法有reduceByKey()、groupByKey()、sortByKey()、join()、cogroup()
其中
map():将每个元素传递到函数func中,并将结果返回为一个新的数据集
reduceByKey():应用于(K,V)键值对的数据集时,返回一个新的(K, V)形式的数据集,其中的每个值是将每个key传递到函数func中进行聚合(key值相同传入func)
mapValue():不改变key值改变value
filter():筛选出满足函数func的元素,并返回一个新的数据集
3.完成了实验四第一题: