Hadoop学习1—浅谈hadoop

Hadoop学习1—浅谈hadoop
　　大数据这个词越来越热，本人一直想学习一下，正巧最近有时间了解一下。先从hadoop入手，在此记录学习中的点滴。

什么是hadoop？

　　What Is Apache Hadoop?

　　The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing

　　作者：Doug Cutting

　　受Google三篇论文的启发(GFS、MapReduce、BigTable)

　　解决问题：

　　　　海量数据的存储（HDFS）

　　　　海量数据的分析（MapReduce）

　　　　资源管理调度（YARN）

hadoop具体能干什么？

　　1、日志分析，hadoop擅长日志分析，对日志进行分析筛选

　　2、搜索引擎（Doug Cutting 设计Hadoop的初衷，为了针对大规模的网页快速建立索引）。

　　3、大数据存储，利用Hadoop的分布式存储能力，例如数据备份、数据仓库等。

　　4、大数据处理，利用Hadoop的分布式处理能力，例如数据挖掘、数据分析等。

hadoop核心

　　HDFS: Hadoop Distributed File System 分布式文件系统

　　YARN: Yet Another Resource Negotiator 资源管理调度系统

　　Mapreduce：分布式运算框架

HDFS的架构
1. 主从结构
　　　　a) 主节点，只有一个namenode

　　　　b)从节点，有很多个: datanode
1. namenode负责管理：
　　　　a) 接收用户操作请求

　　　　b) 维护文件系统的目录结构

　　　　c) 管理文件与block之间关系，block与datanode之间关系
1. datanode负责数据存储：
　　　　a)存储文件

　　　　b)文件被分成block存储在磁盘上

　　　　c)为保证数据安全，文件会有多个副本，分别存储在不同的datanode上

Hadoop的特点

　　1.扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。

　　2.成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

　　3.高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。

　　4.可靠性（Reliable）：hadoop能自动地维护数据的多份副本，并且在任务失败后能自动地重新部署（redeploy）计算任务。

总结

　　我也是刚刚接触hadoop，只是把自己了解的记录下来，比较浅显，也没有形成自己的见解，望各位见谅并指正！！！
相关阅读:
使用cwRsync在Windows的目录之间增量同步文件
 Linux搭建lnmp环境
 ie下文件上传无权访问的问题
 10
8
9
7
网络爬虫环境配置之的模块安装
 pip的更新问题
 【转】进程与线程的一个简单解释
原文地址：https://www.cnblogs.com/skyfeng/p/6759158.html

Hadoop学习1—浅谈hadoop

什么是hadoop？

hadoop具体能干什么？

hadoop核心

HDFS的架构

Hadoop的特点

总结