• 最常见的5个导致 RAC 实例崩溃的问题


    最常见的5个导致 RAC 实例崩溃的问题 (文档 ID 1549191.1)

     


    适用于:

    OracleDatabase - Enterprise Edition - 版本号11.2.0.1 和更高版本号
    本文档所含信息适用于全部平台

    用途

    本文档的目的是总结可能导致 RAC 实例崩溃的最常见的5种问题以及较早版本号(如 10.2.0.5)报告的常见问题。

    适用范围

    问题 1 到 5 仅适用于 11gR2 RAC。

    <版本号>的问题 仅适用于提及的版本号。

    具体信息

    问题 1ORA-29770 LMHB终止实例

    症状:

    LMON (ospid:31216) waits for event 'control file sequential read' for 88 secs.
    Errors in file /oracle/base/diag/rdbms/prod/prod3/trace/prod3_lmhb_31304.trc(incident=2329):
    ORA-29770: global enqueue process LMON (OSID 31216) is hung for more than 70seconds
    LMHB (ospid: 31304) is terminating the instance.


    LMON (ospid: 8594) waits for event 'control file sequential read' for 118 secs.
    ERROR: LMON is not healthy and has no heartbeat.
    ERROR: LMHB (ospid: 8614) is terminating the instance.

    可能的原因:

      LMON 等待读取控制文件。导致LMHB 使实例崩溃
    Bug 11890804 LMHB crashes instance withORA-29770 after long "control file sequential read" waits

    解决方式:

    Bug 8888434 已在 11.2.0.2 及以上版本号 中得到修正
    Bug 11890804 已在 11.2.0.3及以上版本号中得到修正
    请參阅 Document 1197674.1。 Document 8888434.8 和 Document 11890804.8 了解具体信息

     

    问题 2ORA-481导致的实例崩溃

    症状:

    1. PMON (ospid:12585): terminating the instance due to error 481
    LMON 进程跟踪文件显示:
    Begin DRM(107) (swin 0)
    * drm quiesce <kjxgmrcfg: Reconfiguration started, type 6 

    LMS<x> 进程跟踪文件显示:
    2011-07-05 10:53:44.218905 : Start affinity expansion for pkey 81885.0
    2011-07-05 10:53:44.498923 : Expand failed: pkey 81885.0, 229 shadowstraversed, 153 replayed 1 retries

    2. PMON (ospid: 4915562): terminating the instance due to error 481
    Sat Oct 01 19:21:37 2011
    System state dump requested by (instance=2, osid=4915562 (PMON)),summary=[abnormal instance termination].

    可能的原因:

    1. Bug 11875294 LMS gets stuck during DRM,Instance crashed with ORA-481
    2. HAIP 在部分集群节点上离线,或者 HAIP 在全部集群节点上都在线,可是无法通过其进行通信。比如ping操作失败。

    解决方式:

    1. Bug 11875294 已在 11.2.0.3 中得到修正,绕过问题的方法是:
    通过设置
    _gc_read_mostly_locking=FALSE 来禁用read  mostly。
    请參阅 < Document 11875294.8> 了解具体信息。



    2. 修正 HAIP 问题,请參阅 Document 1383737.1

     

    问题 3ORA-600[kjbmprlst:shadow]ORA-600[kjbrref:pkey]ORA-600[kjbmocvt:rid][kjbclose_remaster:!drm]ORA-600 [kjbrasr:pkey] 导致的实例崩溃

    症状:

    因为 ORA-600[kjbmprlst:shadow]、ORA-600[kjbrref:pkey]、ORA-600[kjbmocvt:rid]、[kjbclose_remaster:!drm]或 ORA-600 [kjbrasr:pkey] 导致 RAC 实例崩溃

    可能的原因:

    这一组 ORA-600 与 DRM(dynamic resourceremastering)消息或 read mostly 锁有关。

    涉及多个 bug。包含:
    Document 9458781.8 Missing close message tomaster leaves closed lock dangling crashing the instance with assorted Internalerror 
    Document 9835264.8 ORA-600 [kjbrasr:pkey] /ORA-600 [kjbmocvt:rid] in RAC with dynamic remastering
    Document 10200390.8 ORA-600[kjbclose_remaster:!drm]in RAC with fix for 9979039
    Document 10121589.8 ORA-600[kjbmprlst:shadow] can occur in RAC
    Document 11785390.8 Stack corruption /incorrect behaviour possible in RAC
    Document 12408350.8 ORA-600 [kjbrasr:pkey]in RAC with read mostly locking
    Document 12834027.8 ORA-600[kjbmprlst:shadow] / ORA-600 [kjbrasr:pkey] with RAC read mostly locking

    解决方式:

    上述大部分 bug 都在 11.2.0.3 中得到了修正,安装 11.2.0.3 补丁集应该能够避免这些 bug,除了 Bug 12834027。此 bug 将在 12.1 中进行修正。绕过这个 bug 的方法是:

    禁用 DRM

    禁用read mostly
    比如:设置 "_gc_read_mostly_locking"=FALSE

    有关每一个 bug 的说明和解决方式,请參阅上述相关文档。

     

    问题 4:启用flash cache后产生kcldle/kclfplz/kcbbxsv_l2/kclfprm,导致实例崩溃

    症状:

    警报日志中报告了 ORA-7445[kcldle]
    ORA-7445[kclfplz]
    ORA-7445[kcbbxsv_12]
    ORA-744[kclfprm]

    可能的原因:

    它们是由不同的 bug 引起的。而这些bug都归结为 基础bug Bug 12337941 Dumps on kcldle / kclfplz /kcbbxsv_l2 / kclfprm using flash

    解决方式:

    此 bug 已在 11.2.0.3 中得到修正。请安装补丁集或使用下面方法绕过这个问题:禁用 Flash Cache
    请參阅 Document 12337941.8 ,了解很多其它具体信息

     

    问题 5LMS ORA-600[kclpdc_21]错误,实例崩溃

    症状:

    警报日志中报告了ORA-600[kclpdc_21]

    可能的原因:

    Document 10040035.8  LMS gets ORA-600[kclpdc_21] and instance crashes 

    解决方式:

    此 bug 已在 11.2.0.3 中得到修正

     

    10.2.0.5的问题

    症状:

    1. LMS进程 报ORA-600[kjccgmb:1]错误导致实例崩溃, LMS<n>:terminating instance due to error 484
    2. 因为下面原因导致实例崩溃:
    Received an instance abort message from instance 2 (reason 0x0)
    Please check instance 2 alert and LMON trace files for detail.
    LMD0: terminating instance due to error 481

    可能的原因:

    1. Bug 11893577 - LMD CRASHED WITH ORA-00600 [KJCCGMB:1] 
    2. Bug 9577274 - 1OFF:UNABLE TO VIEW REQUEST OUTPUT AND LOG AFTER APPLYING FIXTO ISSUE IN BUG 9400041

    解决方式:

    1. 对于 10.2.0.5.0,安装合并的补丁 12616787
    2. 对于 10.2.0.5.5,安装合并的补丁 13470618
    撰写本文时。仅仅有特定平台才有可用补丁。对于不论什么 10.2.0.5.x 版本号。不须要同一时候安装上述两个补丁。


  • 相关阅读:
    C/C++一些库函数的实现
    约瑟夫环问题(Josephus)
    union关键字及大小端模式
    指针数组和数组指针
    巧用位运算
    C/C++生成可执行文件过程
    C语言+Modbus+NXP整体规划
    bug和待完善
    python学习第二课
    python学习第一课
  • 原文地址:https://www.cnblogs.com/yjbjingcha/p/6918251.html
Copyright © 2020-2023  润新知