今天学习了sparkRDD的一些基本知识。并学习了钉钉直播回放的项目简介。
Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于
处理不同的应用场景。三大数据结构分别是:
➢
RDD : 弹性分布式数据集
➢
累加器:分布式共享只写变量
➢
广播变量:分布式共享只读变量
什么是 RDD
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据
处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行
计算的集合。
弹性
存储的弹性:内存与磁盘的自动切换;
容错的弹性:数据丢失可以自动恢复;
计算的弹性:计算出错重试机制;
分片的弹性:可根据需要重新分片。
分布式:数据存储在大数据集群不同节点上
数据集:RDD 封装了计算逻辑,并不保存数据
数据抽象:RDD 是一个抽象类,需要子类具体实现
不可变:RDD 封装了计算逻辑,是不可以改变的,想要改变,只能产生新的 RDD,在
新的 RDD 里面封装计算逻辑
可分区、并行计算
核心属性
了解到项目开发的正常流程:
项目开发流程
项目调研
从零开始
需求调研
流行大数据框架
项目需求分析
有什么需求,需要分析得到什么样的结果
项目设计
概要设计
大方向,框架级别
详细设计
具体的模块设计、表的设计
项目编码 --30%时间
编码
需要不断的测试
项目测试
单元测试
联调测试
集群测试
项目上线运行
试运行阶段
正式运行
项目的运维
项目的优化