• 深入剖析HADOOP程序日志


    深入剖析HADOOP程序日志

     前提

    本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com

    了解log4j的使用

     正文

    本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com

    *.log日志文件和*.out日志文件

    进入我们的Hadoop_LOG目录,我们可以看到如下文件:

    image 

    在启动Hadoop集群时,由hadoop-daemon.sh脚本指定一些列环境变量,然后log4j.properties文件读取相应的环境变量产生对应的*.log日志文件。这个日志文件输出类型为org.apache.log4j.DailyRollingFileAppender,它会自动按天更新。

    *.out文件则是启动某个程序的标准输出重定向。

    比如:

    hadoop-admin-datanode-horde20.log是在horde20这台机器上启动datanode进程的日志输出,由log4j实现。

    hadoop-admin-datanode-horde20.out则是在horde20这台机器上启动datanode时的标准输出。

    这些日志仅仅包含在horde20这台机器上启动datanode进程的日志,没有其他的信息。

    userlogs目录下的日志文件

    进入userlogs目录,我们可以看到:

    image

    这里的每一个目录代表每一个task的输出日志。

    进入其中一个目录可以看到:

    image

    这里的stderr和stdout记录了我们的task(map or reduce)的在这台机器上运行的过程中所产生的标准错误输出和标准输出。这些信息集群中的每一个机器上都会出现,如果数据量足够多的话:)

    syslog则记录了在我们的task中,通过log4j接口记录的日志信息。

    每一个task都会通过TaskRunner.run()来启动,它会为每一个子java程序指定标准错误输出和标准输出到前面提到的文件中,同时设置相应的参数,其中包括”-Dhadoop.root.logger=INFO,TLA”,这个TLA的定义可以在log4j.properties文件中找到,具体实现是org.apache.hadoop.mapred.TaskLogAppender。这个参数指定了在我们的task中,通过log4j接口记录的日志信息都记录到syslog中。

    history目录下的日志文件

    进入jobtracker机器的history目录,我们可以看到:

    image 

    horde20_1250841267760_job_200908211554_0001_conf.xml记录了我们运行这个job时候的配置文件信息。

    horde20_1250841267760_job_200908211554_0001_admin_wordcount记录了我们运行这个job的情况。

    他们是由JobHistory产生的,并且只在jobtracker机器上产生。

    EventCounter

    在Hadoop的默认配置log4j.properties中,所有通过log4j接口记录的日志信息还会记录到一个叫EventCounter的Appender中,它的实现是org.apache.hadoop.metrics.jvm.EventCounter,具体的作用是统计Hadoop中使用log4j记录INFO,WARN,ERROR,FATAL信息的次数。

    后记

    本文介绍了Hadoop中所有的程序日志的来源和作用。希望能给开发和维护人员以帮助。

    如果希望完全了解Hadoop的运行状况信息,还需要参考counter和metric。

    转自:http://www.cnblogs.com/gpcuster/archive/2009/08/21/1551715.html

  • 相关阅读:
    spring boot 在windows下安装为service(转)
    win7安装Anaconda+TensorFlow+配置PyCharm(转)
    IDEA中Spring boot配置热部署无效问题解决方式(转)
    WEB后台--基于Token的WEB后台登录认证机制(转)
    selenium之使用chrome浏览器测试(附chromedriver与chrome的对应关系表)(转)
    开源巨献:Google最热门60款开源项目(转)
    反射获取一个方法中的参数名(不是类型)(转)
    ELK原理与介绍(转)
    Linux下Redis的安装和部署(转)
    webpack+ES6+less开发环境搭建(转)
  • 原文地址:https://www.cnblogs.com/catWang/p/4037260.html
Copyright © 2020-2023  润新知