大数据--循序渐进的大数据（2）

大数据--循序渐进的大数据（2）

一、Hdfs 架构

访问 (1) ----nameNode

(2)

|

|

|

dataNode

每隔一段时间secondaryNameNode会将fsimage和edits进行合并产生心得fsimage；

1、Hdfs 适用场景

数据密集型并行计算

计算密集并行计算

2、不适合的场景

HDFS不合适大量小文件的储存

HDFS适用于高吞吐量，不适合低时间延迟的访问

流式读取的方式、不适合多用户写入一个文件（一个文件同时只能被一个客户端写），以及任意位置写入（不支持随机写）；

不适合用mapreduce方式进行计算的场景；

二、MapReduce 编程

MapReduce借用的函数式编程的概念，google发明的一种分布式的数据处理模型。Hadoop的坐着Doug Cutting 根据这篇论文复制了google的分布式文件系统gfs和mapReduce，

对应的hadoop的hdfs和mapreduce。

MapReduce模型是整个大数据技术的核心思想，hdfs的架构是为了方便mapreduce而设计，hive、pig等软件最后总是通过调用mapreduce运行

三、Hive体系结构

Hive不是数据库、仅仅是数据仓库。是建立在hadoop上的数据仓库基础框架，它提供了一系列的工具，可以用来进行数据提取转化加载（ETL)
相关阅读:
Python 特点
 Python简介
 数据库查询语句
 人月神话读书笔记01
团队介绍
 团队项目一原型展示+电梯演讲
 全球疫情可视化展示
 NABCD模型
 第六周学习进度
 构建之法阅读笔记03
原文地址：https://www.cnblogs.com/wuyuxiang/p/5166768.html