• 我的Hadoop学习(1)


    大数据(BigData):大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

    Hadoop是根据谷歌的论文开发出来的分布式系统基础架构。(图片取自课工场视频的截图)

    BigTable是Google设计的分布式数据存储系统,用来处理海量的数据的一种非关系型的数据库。(数据库)

    GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。(存储系统)

    MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"(计算)

    大数据带来的革命性变革
    1)成本降低,能用PC机,就不会大型机或者高端存储设备。
    2)软件容错、硬件故障视为常态,通过软件来保证高可靠。
    3)简化分布式并行计算,无需控制节点同步和数据的交换。

    Hadoop是什么:

    Hadoop框架的三大部分:

     

    Hadoop的生态圈:

     Hive:提供了sql查询功能

    R语言:一种统计性语言

    Mahout:机器学习库(已停止更新) 现在大家都使用Spark。

    pig:用于写脚本统计数据。

    Oozie:工作流(通常在多个场景中相互配合使用)

    zookeeper:分布式的协调性服务。

    Flume:用于日志文件的收集。

    Sqoop:描述数据的交换,关系型数据库和大数据系统进行交换。

     Hbase:建立在HFDS上的面向列的数据库,用于快速读写大量数据,由zookeeper进行管理。

    Hadoop的版本选择:

     

    对于Apache的顶级项目,网站有一定的规则
    hadoop: hadoop.apache.org
    hive: hive.apache.org
    spark: spark.apache.org
    hbase
    zookeeper


    CDH下载地址:http://archive.cloudera.com/cdh5/cdh/5/
    cdh5.7.0

    CM: 通过web就能够快速的搭建集群

     ================================================================================================================================

    写在后面的话:

      这篇博客是我第一篇关于学习技术的博客,记录的是我看课工场视频学习的记录,截图取自视频,一些定义取自百度,可能写的不好,并且也没什么自己的理解。我个人写博客的原因是朋友的建议,因为

    在培训班培训了6个多月只会写SSM框架,现在找工作很难,面试官的要求以我现在的水平根本达不到,现在都要求会spingboot和springcloud,会处理抢购网站的高并发请求,

    我觉得我的培训经历很失败,朋友建议我自己照着API文档撸一遍代码,并且写技术博客来记录自己的学习,我自己希望能通过自己的学习达到用人单位的要求,找到一份合适的工作,

    在博客里面如果有大佬觉得写的有问题的话请指出来,我来修改;如果有像我一样想要转行的小白,希望我们能共勉,一起努力学习,早日找到满意的工作。最后希望看到这篇博客的读者如果

    发现有错误的地方能指出来,我在此表示感谢。(培训班不要报某鸟,我觉得我进天坑了~。~)

  • 相关阅读:
    Docker本地镜像管理之Docker Registry
    特征工程(一)数据清理
    特征工程(二)数据转换
    特征工程(三)特征选择
    特征工程(四)特征抽取
    【转】前端jQuery、Bootstrap、Layui和响应式布局
    【ASP.NET Core】配置应用程序地址的N多种方法
    设计模式: 策略模式+工厂模式+模板模式应用实践
    开发者平台
    Azure API Management (4) 配置自托管网关
  • 原文地址:https://www.cnblogs.com/chuxuedejuzi/p/10901636.html
Copyright © 2020-2023  润新知