• 安装关系型数据库MySQL和大数据处理框架Hadoop


    作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161

    1.简述Hadoop平台的起源、发展历史与应用现状。

    1、介绍:

    Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。适合大数据的分布式存储和计算平台。
    Hadoop1.x中包括两个核心组件:MapReduce和Hadoop Distributed File System(HDFS)
    其中HDFS负责将海量数据进行分布式存储,而MapReduce负责提供对数据的计算结果的汇总。

    (1)、主要版本:

    0.x系列版本:hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本
    1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等
    2.x版本系列:架构产生重大变化,引入了yarn平台等许多新特性

    (2)、主要厂商

    Hadoop的发行版除了社区的Apache hadoop外,cloudera,IBM,ORACLE等都提供子自己的商业版本。

    免费开源版本apache:

    http://hadoop.apache.org/
    优点:拥有全世界的开源贡献者,代码更新迭代版本比较快,
    缺点:版本的升级,版本的维护,版本的兼容性,版本的补丁都可能考虑不太周到,学习可以用,实际生产工作环境尽量不要使用
    apache所有软件的下载地址(包括各种历史版本):
    http://archive.apache.org/dist/

    免费开源版本hortonWorks:

    https://hortonworks.com/
    hortonworks主要是雅虎主导Hadoop开发的副总裁,带领二十几个核心成员成立Hortonworks,核心产品软件HDP(ambari),HDF免费开源,并且提供一整套的web管理界面,供我们可以通过web界面管理我们的集群状态,web管理界面软件HDF网址(http://ambari.apache.org/)

    软件收费版本ClouderaManager:

    https://www.cloudera.com/
    cloudera主要是美国一家大数据公司在apache开源hadoop的版本上,通过自己公司内部的各种补丁,实现版本之间的稳定运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,版本兼容性等各种问题,生产环境强烈推荐使用

    2、起源:

    Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。
    2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。
    Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果您要 grep 一个 10TB 的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题,采用并行执行机制,因此能大大提高效率。
    狭义上来说,hadoop就是单独指代hadoop这个软件,广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件。

    3、发展:

    Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop [3] 最初只与网页索引有关,迅速发展成为分析大数据的领先平台。
    目前有很多公司开始提供基于Hadoop的商业软件、支持、服务以及培训。Cloudera是一家美国的企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务。GoGrid是一家云计算基础设施公司,在2012年,该公司与Cloudera合作加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司,同样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估的软件。

    4、应用现状:

    Hadoop目前已经取得了非常突出的成绩。国外如Yahoo、Facebook、Adobe、Ebay以及国内的阿里、腾讯、新浪、美团、百度等互联网公司均采用了hadoop云架构平台。随着互联网的发展,新的业务模式还将不断涌现,Hadoop的应用也会从互联网领域向电信、电子商务、银行、生物制药等领域拓展。

    2.安装MySql

    mysql节点启动成功:

    登录并查看数据库:

    3.Hadoop的安装与配置

    新建hadoop用户:

    在.bashrc配置文件里配置JAVA_HOME环境变量:


    检验环境变量是否配置成功:


    检查hadoop是否可用:

    修改core-site.xml和hdfs-site.xml的configuration:

    core-site.xml:

    hdfs-site.xml:

    执行NameNode的格式化:

    开启NameNode和DataNode守护进程:

    查看守护进程是否开启成功:

    运行mapreduce作业:



    运行hadoop伪分布实例:

    最后关闭hadoop:

  • 相关阅读:
    ANC耳机中的数字反馈稳定性控制(Active Noise Cancellation in Headphones by Digital Robust Feedback Control)
    【控制理论】水床效应(waterbed effect)与Bode灵敏度积分
    ANC的基本概念 主通路和次级通路
    ANC耳机中通透模式设计方案
    matlab编程规则总结
    滤波器系数、单位脉冲响应、频率响应等概念笔记
    shell 脚本艺术
    vue leader-line-vue
    vue npm rum命令
    VUEX
  • 原文地址:https://www.cnblogs.com/Xi-Chen00/p/10822524.html
Copyright © 2020-2023  润新知