• Hadoop: The Definitive Guide (3rd Edition)


    chapter 1

    解决计算能力不足的问题,不是去制造更大的计算机,而是用更多的计算机来解决问题。

    我们生活在一个数据的时代。“大数据”的到来不仅仅是影响到那些科研和金融机构,对小型企业以及我们个人都有影响力。

    datanode

    tasktracker

    namenode

    jobtracker

    secondary namenode

    HDFS Clusters don't benefit from RAID fro datanode storage(It's OK for namenode).

    为了方便集群的安装,推荐使用自动化安装方法,比如Red Hat的Kickstart或者是Debian的Fully Automatic Installation。

    最好专门创建一个使用Hadoop的用户,这样便于把Hadoop的安装和其它运行在机器上的服务相隔离。

    大数据代表的不是一种解决方案,而是一类问题。大数据谈的不仅仅是数据量(Volume),还包括数据的时效性(Velocity),多样性(Variety)和可疑性(Veracity)。

    数据量,就是指大量数据的产生,处理和存储,PB级数据,甚至ZB级数据。

    时效性,指利用大数据做市场预测的时候,如果需要太长时间,就失去了预测的意义。

    多样性,指数据的形态,包括文字,影音,网页,串流等结构性和无结构性的数据。

    可疑性,指当数据来源变得多元时,这些数据的可靠度,质量是否满足,如果数据本身有问题,分析数据后得出的结果就不可能正确。

    ZB=1000EB=1000,000PB=1000,000,000TB

  • 相关阅读:
    visual studio 2010的安装
    安装操作系统的过程图解
    教育法学第八章单元测试MOOC
    教育法学第七章单元测试MOOC
    教育法学第六章单元测试MOOC
    教育法学第四章单元测试MOOC
    教育法学第三章单元测试MOOC
    教育法学第一章单元测试MOOC
    教育法学-第二章单元测验mooc
    单元测验4:人格知识大比武2mooc
  • 原文地址:https://www.cnblogs.com/hare/p/3606363.html
Copyright © 2020-2023  润新知