• 日志实践推荐


    背景


    软件系统生产稳定,依靠着各种高可用、高吞吐、高性能的设计。一旦出现生产问题,常常需要线上定位问题。

    日志则是必备的,问题定位利器。常常出现线上问题,我们都可以通过日志精确定位。同时在开发过程中,由于极长的调用链难以快速定位问题或难以复现时,它是极好的利器。

    日志级别


    一个项目各个log级别的定义应该是清楚明确的,是每个开发人员所遵循的;

    即使是TRACE或者DEBUG级别的日志,也应该有一定的规范,要保证除了开发人员自己以外,包括测试人员和运维人员都可以方便地通过日志定位问题;

    FATAL

    表示需要立即被处理的系统级错误。

    当该错误发生时,表示服务已经出现了某种程度的不可用,系统管理员需要立即介入。

    这属于最严重的日志级别,因此该日志级 别必须慎用,如果这种级别的日志经常出现,则该日志也失去了意义。

    通常情况下,一个进程的生命周期中应该只记录一次FATAL级别的日志,即该进程遇到无 法恢复的错误而退出时。

    当然,如果某个系统的子系统遇到了不可恢复的错误,那该子系统的调用方也可以记入FATAL级别日志,以便通过日志报警提醒系统管 理员修复;

    ERROR

    该级别的错误也需要马上被处理,但是紧急程度要低于FATAL级别。

    当ERROR错误发生时,已经影响了用户的正常访问。从该意义上来说,实际上 ERROR错误和FATAL错误对用户的影响是相当的。

    FATAL相当于服务已经挂了,而ERROR相当于好死不如赖活着,然而活着却无法提供正常的服务,只能不断地打印ERROR日志。

    特别需要注意的是,ERROR和FATAL都属于服务器自己的异常,是需要马上得到人工介入并处理的。

    而对于用户自己 操作不当,如请求参数错误等等,是绝对不应该记为ERROR日志的;

    WARN

    该日志表示系统可能出现问题,也可能没有,这种情况如网络的波动等。

    对于那些目前还不是错误,然而不及时处理也会变为错误的情况,也可以记为WARN日 志,例如一个存储系统的磁盘使用量超过阀值,或者系统中某个用户的存储配额快用完等等。

    对于WARN级别的日志,虽然不需要系统管理员马上处理,也是需要 即使查看并处理的。

    因此此种级别的日志也不应太多,能不打WARN级别的日志,就尽量不要打;

    INFO

    该种日志记录系统的正常运行状态,例如某个子系统的初始化,某个请求的成功执行等等。

    通过查看INFO级别的日志,可以很快地对系统中出现的 WARN,ERROR,FATAL错误进行定位。

    INFO日志不宜过多,通常情况下,INFO级别的日志应该不大于TRACE日志的10%;

    DEBUG or TRACE

    这两种日志具体的规范应该由项目组自己定义,该级别日志的主要作用是对系统每一步的运行状态进行精确的记录。

    通过该种日志,可以查看某一个操作每一步的执 行过程,可以准确定位是何种操作,何种参数,何种顺序导致了某种错误的发生。

    可以保证在不重现错误的情况下,也可以通过DEBUG(或TRACE)级别的 日志对问题进行诊断。

    需要注意的是,DEBUG日志也需要规范日志格式,应该保证除了记录日志的开发人员自己外,其他的如运维,测试人员等也可以通过 DEBUG(或TRACE)日志来定位问题;

    在出错时,日志中包含尽量多的有用上下文信息


    为什么可以这么做?

    日志过多大家伙会说影响性能,但是值得指出的是出错是小概率分支。如果是出错是大概率分支那,打日志以外操作更会成为瓶颈!

    多打日志减少支持时间,比起开发所用的实现时间,线上和线下的排查/支持要花费很多时间;

    别吞噬异常!

    抓住异常没有书写人和响应日志,将导致难以定位。
        @Override
        public UserAmountStat getUserYestodayStat(Long userId, String day) throws GlobalServiceException {
            // TODO Auto-generated method stub
            try {
                UserAmountStat stat = userAmountStatMapper.getUserYestodayStat(userId, day);
                if (stat == null) {
                    stat = new UserAmountStat();
                    stat.setBet(0l);
                    stat.setPrize(0l);
                    stat.setBonus(0l);
                }
                return stat;
            catch (Exception e) {
                // TODO: handle exception
                throw new GlobalServiceException(e);
            }
        }

    此处推荐的需要在日志中记录的内容

    • 在系统启动或初始化时记录重要的系统初始化参数
    • 记录系统运行过程中的所有的错误
    • 记录系统运行过程中的所有的警告
    • 在持久化数据修改时记录修改前和修改后的值
    • 记录系统各主要模块之间的请求和响应
    • 重要的状态变化(如对系统白名单的修改等)
    • 系统中一些长期执行的任务的执行进度
    • 服务信息:接口、方法、版本等等
    • 如果是超时,配置的超时时间,本次处理所用的时间,是Server端超时还Client超时?
    • 重试的次数,本次重试的是第几次(fail over)

    RequestID

    将一个请求的整个处理流程和唯一的requestID关联起来,requestID规则另行定义。

    日志输出级别

    在设置日志输出级别时,推荐如下:

    • 开发、测试环境打开DEBUG;
    • 线上生产环境保证设置为WARN级别;

    关于日志分类


    日志从功能来说,可分为诊断日志、统计日志、审计日志。

    诊断日志:

    • 请求入口和出口
    • 外部服务调用和返回
    • 资源消耗操作: 打开文件等
    • 容错行为: 譬如云硬盘的副本修复操作
    • 程序异常: 譬如数据库无法连接
    • 后台操作:清理程序

    • 启动、关闭、配置加载

    • 抛出异常时,不记录日志

    统计日志:

    • 用户访问统计
    • 计费日志(如记录用户交易流水日志,格式较为严格,便于统计)

    审计日志:

    • 管理操作(类似于登录信息记录)

    关于日志格式


    日志格式一定要统一,不能任由开发人员的喜好来。举例来说,对于NOS视频截图超时的ERROR日志,有以下几种方式打印:

    第一种:
    logger.error(“Gearman timeout exception for request ” + getRequestID() + ” value: ” + value, e);
    第二种:
    logger.error(“RequestID: ” + getRequestID() + “, Error Message: Gearman timeout exception: ” + e);
    第三种:
    logger.error(getErrorMessage(getRequestID(), getErrorMessage(), e));

    第一种方式打印日志即是开发人员按照自己的喜好来的,这种方法带来的问题是:

    • 系统中日志格式不统一,不利于自动化处理
    • 有些日志可能只有开发人员自己才能看懂
    • 代码规范性不好

    而第三种方式,通过一个函数来规范日志格式,所有开发人员便可以通过该接口实现统一的日志。

    关于日志语义


    日志书写语义一定要明确,定义明确语义的异常类信息,在此列举linux环境下两个报错信息作为示例;

    [root@ip-172-31-1-43 ~]# cd /file
    -bash: cd: /file: 没有那个文件或目录
    [root@ip-172-31-1-43 ~]# cd build-public-ult_6.0-2015-09-02-17_6d3c3ee51a.tar.gz
    -bash: cd: build-public-ult_6.0-2015-09-02-17_6d3c3ee51a.tar.gz: 不是目录

    我们可以看到同样是cd命令,在遇到不同的错误行为时,分别针对性的给出了报错信息。

  • 相关阅读:
    printf()参数的处理
    const关键字作用
    static的作用
    程序调试的方法
    引用与指针的区别
    内存对齐
    Android UI开发详解之ActionBar
    Android ActionBar使用方法
    android的系统学习
    Activity 切换动画
  • 原文地址:https://www.cnblogs.com/snifferhu/p/6010674.html
Copyright © 2020-2023  润新知