20212022年寒假学习进度18

20212022年寒假学习进度18

今天学习了sparkRDD的一些基本知识。并学习了钉钉直播回放的项目简介。

Spark 计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于

处理不同的应用场景。三大数据结构分别是：

➢

RDD : 弹性分布式数据集

➢

累加器：分布式共享只写变量

➢

广播变量：分布式共享只读变量

什么是 RDD

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据

处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行

计算的集合。

弹性

存储的弹性：内存与磁盘的自动切换；

容错的弹性：数据丢失可以自动恢复；

计算的弹性：计算出错重试机制；

分片的弹性：可根据需要重新分片。

分布式：数据存储在大数据集群不同节点上

数据集：RDD 封装了计算逻辑，并不保存数据

数据抽象：RDD 是一个抽象类，需要子类具体实现

不可变：RDD 封装了计算逻辑，是不可以改变的，想要改变，只能产生新的 RDD，在

新的 RDD 里面封装计算逻辑

可分区、并行计算

核心属性

了解到项目开发的正常流程：

项目开发流程
项目调研
从零开始
需求调研
流行大数据框架

项目需求分析
有什么需求，需要分析得到什么样的结果

项目设计
概要设计
大方向，框架级别
详细设计
具体的模块设计、表的设计

项目编码 --30%时间
编码
需要不断的测试

项目测试
单元测试
联调测试
集群测试

项目上线运行
试运行阶段
正式运行

项目的运维
项目的优化

作者：哦心有

出处：https://www.cnblogs.com/haobox/

本文版权归作者和博客园共有，欢迎转载，但必须给出原文链接，并保留此段声明，否则保留追究法律责任的权利。
相关阅读:
为什么 ObjectiveC 很难
 PHP开发Windows桌面应用程序实例
 windows下借助InstantRails环境搭建redmine
php,python,ruby,perl的优缺点?
Ruby在windows上的eclipse开发环境搭建
 Python的web框架很多，比如Django，webpy等，但是哪一种综合实力最强呢？
使用JRockit作为Eclipse的Java VM
Fat Jar Eclipse PlugIn Tutorial
ECLIPSE插件集合
 Java反编译利器Jad, Jode, Java Decompiler等及其IDE插件
原文地址：https://www.cnblogs.com/haobox/p/15819458.html