• Hadoop笔记系列 一 用Hadoop进行分布式数据处理(1)


    学习资料参考地址:

    1.http://blog.csdn.net/zhoudaxia/article/details/8801769

    1.先说说什么是Hadoop?

      个人理解:一个分布式文件存储系统+一个分布式计算框架,在其上还有很多的开源项目来丰富他的功能,如Hbase,hive等等。官方:Hadoop是一个用Java编写的开源系统,可安排在大规模的计算平台上,从而提高计算效率。本质上它只是一个海量数据处理平台架构。

    2.Hadoop与MapReduce,有什么关系?

      Hadoop生态圈的三个工具:第一,Hbase,最大化利用了内存。第二,HDFS,最大化利用了磁盘。第三,MapReduce,最大化利用了CPU。(Hbase,利用了Nosql数据库,Key-Value存储;HDFS,是hadoop distribute file system分布式文件系统;MapReduce,编程模型,主要用来做数据分析)

    3.Hadoop是在怎么样的一个环境中应用而生的,它最终解决了什么问题?运用它之后,目前的发展方向是什么样的?

      信息时代数据的增长,比如每天在全球流通的Email。比如,某人在微博中发了不健康内容,我们想在第一时间找出来,需要在海量数据中做搜索。比如某大型公司的日志记录,我们需要离线处理海量数据,从中分析出用户的一些消费习惯。那么我们要存储,我们要运算并且分析,但是硬盘存储空间不够,网络带宽受限,硬件故障不稳定。但是,我们想以很少的代价完成这个tasks。于是产生了Hadoop。如google,会把淘汰的机器用于搭建一个Hadoop集群。运用这个技术之后,我们的海量技术得到了长期保存,得到了及时的处理很分析,集群会自动备份,省去了我们对硬件环境不稳定的担忧。目前,在国内阿里的这方面领先。

    4.笔记摘要:

      Hadoop是一个分布式数据处理框架。当搜索引擎需要收集数据时,数据量是极大的。此时,Hadoop 让许多应用程序能够受益于并行数据处理。

    5、Hadoop的安装。

      首先,安装Java™(至少是 1.6 版)和 cURL。

    参考地址:http://blog.itpub.net/26230597/viewspace-1255651/

  • 相关阅读:
    录音和朗诵的实现
    树型控件的处理(完整版)
    蜘蛛爬虫
    百度公司面试题
    一名程序员的杂想
    javascript语法
    HTML标签
    Winform中保存当前控件的记录
    hdu3079 Vowel Counting (strlwr(将字符串中的字母转换为小写);strupr(转换为大写))
    hdu 1860 统计字符 (水)
  • 原文地址:https://www.cnblogs.com/RunForLove/p/4335986.html
Copyright © 2020-2023  润新知