《Hadoop权威指南·大数据的存储与分析》阅读笔记（未读完）

《Hadoop权威指南·大数据的存储与分析》阅读笔记（未读完）

Hadoop基础知识：1.MapReduce 执行引擎

2.HDFS

3.Yarn

　　　　　　　　 4.Hadoop的I/O操作

Hadoop相关开源项目：1. Avro 数据格式

　　　　　　　　　　 2.Parquet

3.Flume 数据摄取

　　　　　　　　　　 4.Sqoop

5.Pig 数据处理

6.Hive

7.Cruch

8.Spark

9.Hbase 存储

10.Zookeeper 协作

Haoop相关开源项目：

8. Spark 大数据处理的集群计算框架

spark没有使用MapReduce作为执行引擎，而是使用自身的分布式运行环境在集群上执行工作

spark内最核心的概念是RDD，弹性分布式数据集，集群中跨多个机器分区存储的只读的对象集合（弹性：可以通过安排计算重新得到丢失的分区）

spark有延迟执行的机制，就是点那个加载RDD或者转换的时候并不会立即触发任何数据处理的操作，只不过是创建了一个计算的计划，只有当对RDD执行某个动作的时候才会真正执行。所以spark中的job与MapReduce中的job不同，Spark中的job是由多个阶段组成的一个有向无环图，每个阶段都相当于MapReduce中的Map或者Reduce，这些阶段会被分布在Spark内并行执行。

弹性分布式数据集RDD:

创建：来自内存中的对象集合；使用外部存储器中的数据集；现有RDD的转换

redis的持久化：
相关阅读:
Ext checkbox
Ext4.1 grid 多选（可无checkbox）
System.Web.HttpContext.Current.Session获取值出错
 Ext4.1 tree grid的右键菜单
 javascript innerHTML、outerHTML、innerText、outerText的区别
 EXT ajax简单实例
 C# 各版本更新简介
 C#与.Net Framework的各种版本和联系
 Ext4 简单的treepanel
Ext4.1 Grid 分页查询
原文地址：https://www.cnblogs.com/Flower-Z/p/10683460.html