Spark3000门徒第15课RDD创建内幕彻底解密总结

今晚听了王家林老师的第15课RDD创建内幕彻底解密，课堂笔记如下：

Spark driver中第一个RDD：代表了Spark应用程序输入数据的来源.后续通过Transformation来对RDD进行各种算子的转换实现算法

创建RDD的方法：
1，使用程序中的集合创建RDD;2，使用本地文件系统创建RDD；3，使用HDFS创建RDD 4，基于DB创建RDD
5，基于NoSQL,例如HBase 6，基于S3创建RDD 7，基于数据流创建RDD

不指定并行度，有多少core就用多少core,所以需要资源管理，防止一次就耗光了资源。

reduce是action，不产生新的RDD
spark 的map和fiter以及简单的reduceByKey不需要shuffle，比hadoop快很多。

val rdd = sc.parallelize(numbers,10) 指定并行度10

直接访问hbase,mysql需要考虑数据本地性

后续课程可以参照新浪微博王家林_DT大数据梦工厂：http://weibo.com/ilovepains

王家林中国Spark第一人,微信公共号DT_Spark

转发请写明出处。

相关阅读:
图片上传-下载-删除等图片管理的若干经验总结3-单一业务场景的完整解决方案
图片上传-下载-删除等图片管理的若干经验总结2
HDU 1195 Open the Lock
HDU 1690 Bus System
HDU 2647 Reward
HDU 2680 Choose the best route
HDU 1596 find the safest road
POJ 1904 King's Quest
CDOJ 889 Battle for Silver
CDOJ 888 Absurdistan Roads

原文地址：https://www.cnblogs.com/haitianS/p/5140789.html