Spark—RDD介绍

Spark—RDD

1、概念介绍

RDD（Resilient Distributed Dataset）:弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。

官方定义还是比较抽象，个人理解为:它本质就是一个类，屏蔽了底层对数据的复杂抽象和处理，为用户提供了一组方便数据转换和求值的方法。

2、RDD特点

1)不可变：弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合

2)可分区：RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同Worker节点上，从而让RDD中的数据可以被并行操作。（分布式数据集）

3)弹性：1>存储弹性：内存与磁盘的自动切换 2>容错弹性：数据丢失可以自动恢复

3>计算弹性：计算出错重试机制 4>分片弹性：根据需要重新分片

3、在计算数据中RDD都做了什么：

主要流程：

RDD创建——>RDD转换——>RDD缓存——>RDD行动——>RDD的输出

spark计算的核心就在RDD转换、缓存、行动上。

4、Spark wordcount 解释RDD

相关阅读:
Java集合知识点小结
集合类说明及区别
微信翻译机器人实战
细说：域名与SEO存在什么关系
我为PHP摇旗呐喊！
每个程序员都该知道的10大编码原则
浏览器加载模式：window.onload和$(document).ready(）
修改Mysql编码集
java实现LIS算法，出操队形问题
[笔记]: 前向星标签：数据结构存储 2017-05-25 09:13 35人阅读评论(0) 收藏

原文地址：https://www.cnblogs.com/jnba/p/10830446.html