• 初识hadoop


    一、hadoop的解释

      Hadoop 是一个开源软件框架,用于在商用硬件集群上存储数据和运行应用程序。它为任何类型的数据提供海量存储,巨大的处理能力以及处理几乎无限的并发任务或作业的能力。总的来说就是云计算。

    二、了解hadoop

    • 解决问题:
    1. 海量数据的存储(HDFS)
    2. 海量数据的计算(MapReduce)
    3. 资源管理调度(YARN)
    • 出处
    1. 作者:Doug Cutting
    2. 灵感来源:Google三篇论文启发(GFS、MapReduce、BigTable)
    • 应用

        Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。

    • hadoop架构总览

    •  hadoop核心
    1. HDFS(Hadoop Distributed File System)分布式文件系统
    2. YARN(Yet Another Resource Negotiator)资源管理调度系统
    • hadoop版本

        考虑到hadoop版本的更新,且版本存在架构的差异性,在这里主要介绍hadoop2.0的学习

    • hadoop特点
    1. 可扩展性(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
    2. 成本低(Economical):可以通过普通机器组成的服务器群来分发和处理数据。这个服务器群总计可达数千个节点。
    3. 高效率(Effcient):通过分发数据,hadoop可以在数据所在的节点上并行(parallel)地处理它们这使得处理得非常快。
    4. 可靠性(Reliable):hadoop可以自动维护数据的多份副本,并且在任务失败后能够重新部署(redeploy)计算任务。
    一腔孤勇,淡然且快乐。
  • 相关阅读:
    JDBC
    JDBC连接MYSQL
    Servlet学习(1)
    Apache http server和tomcat的区别
    log4j(转)
    《打造Facebook》
    深入浅出Java三大框架SSH与MVC的设计模式
    Python 爬虫监控女神的QQ空间新的说说,实现秒赞,并发送说说内容到你的邮箱
    Python 爬虫监控女神的QQ空间新的说说,实现邮箱发送
    linux 进程消耗查看
  • 原文地址:https://www.cnblogs.com/withheart1202-never/p/12430394.html
Copyright © 2020-2023  润新知