大数据笔记01：大数据之Hadoop简介

大数据笔记01：大数据之Hadoop简介

1. 背景

随着大数据时代来临，人们发现数据越来越多。但是如何对大数据进行存储与分析呢？

单机PC存储和分析数据存在很多瓶颈，包括存储容量、读写速率、计算效率等等，这些单机PC无法满足要求。

2. 为解决这些存储容量、读写速率、计算效率等等问题，google大数据技术开发了三大革命性技术解决这些问题，这三大技术为：

（1）MapReduce

（2）BigTable

（3）GFS

技术革命性：

革命性变化01：成本降低，能使用PC，就不用大型机和高端存储。

革命性变化02：软件容错硬件故障视为常态，通过软件保证可靠性。

革命性变化03：简化并行分布式计算，无须控制节点同步和数据交换。

但是google只是发表了相关的技术论文，没有开放源代码。

3.幸运的是，一个模仿了Google大数据技术的开源实现来了，他就是：

Hadoop

那么我们有必要说明一下Hadoop的功能与优势：

（1）首先Hadoop是什么？

Hadoop是一个开源的分布式存储和分布式计算的平台。

（2）为什么Hadoop可以进行分布式存储和分布式计算？

这是因为Hadoop里面包括两个核心的组成：

• HDFS ：分布式文件系统，存储海量的数据

• MapReduce ：并行处理的框架，实现任务分解和调度

（3）Hadoop可以用来做什么呢？

搭建大型数据仓库，PB级数据存储、处理、分析、统计等业务。

（4）Hadoop的优势

• 优势1：高扩展（理论上无限）

• 优势2：低成本

• 优势3：成熟的生态圈（非常丰富的工具链）

这些大量的工具是围绕Hadoop衍生出来的，它们的存在使得Hadoop变得更加高效和方便。

（5）Hadoop的应用情况

目前国内和国外很多大公司都是使用Hadoop搭建这个大数据平台。

（6）Hadoop已经成为业界大数据平台搭建的首选，同时Hadoop的人才的需求也越来越大。
相关阅读:
Comprehend-Elasticsearch-Demo5
Mxnet使用TensorRT加速模型--Mxnet官方例子
 Mxnet模型转换ONNX，再用tensorrt执行前向运算
 MxNet模型转换Onnx
基于Flask-APScheduler实现添加动态定时任务
 Golang习题
 算法题
 Celery使用指南
 flask拓展（数据库操作）
flask进阶（上下文源管理源码浅析）
原文地址：https://www.cnblogs.com/hebao0514/p/4813505.html