• Hadoop学习笔记(1)


    Doug Cutting

    Lucene(索引引擎)---Nutch(搜索Data抓取)---Hadoop

    1997:Lucene

    2003:GFS

    2004:NDFSMapReduceNutch

    2006: (Yahoo! Facebook NewYorkTimes) Hadoop

    2008: HBase Zookeeper  Mahout

    2009: Pig Hive

    Hadoop生态系统:

    Common、HDFS、MapReduce

    Avro:序列化;

    Zookeeper:统一一致性;

    Hive:数据仓库;

    HBase:BigTable 结构化数据

    Mahout:数据挖掘

    X-Rtime:社会网络

    Sqoop(SQL to Hadoop)

    OOzie:工作流引擎(有向无环)

    Pig、Crosslow、Ivory、Chukwa+Flume

    Java语言关键字:代码同步synchronized,见:http://www.cnblogs.com/dorothychai/p/4172040.html

    JAXP(Java API for XML Processing)

    SAX:解析大文件

    DOM:一次性读入内存

    静态方法,如何访问非静态方法或元素:通过静态媒介

    Hadoop源码关于配置文件的类中,包含两类resource和defaultResourses分别用来加载资源和默认资源(资源代表配置文件),加载后并非立刻将配置文件中的资源加载到properties和finalParameters中,而是通过调用loadResource。

    addDefaultResource通过静态成员REGISTRY(记录了系统内的所有Configuration对象,每个Configuration对象在创建初就把自己添加到REGISTRY中)来加载。

    Hadoop的配置文件支持XInclude机制:配置文档中包含其他的配置文档。

    Hadoop序列化框架(Hadoop Avro),Apache Thrift,Google Protocol Buffer等。

    Hadoop支持的压缩格式包括:gzip zip bzip LZO

    Hadoop通过抽象工厂方法提供可扩展的框架

  • 相关阅读:
    科学计算器
    ASCII码表
    面试题(2)
    面试题(1)
    ACM/ICPC竞赛
    ACM/ICPC竞赛
    ACM-ICPC竞赛模板
    杭电题目分类(1)
    ACM/ICPC竞赛
    ACM/ICPC竞赛
  • 原文地址:https://www.cnblogs.com/dorothychai/p/4173944.html
Copyright © 2020-2023  润新知