Exadata重启时，主机很可能会hang住

Exadata重启时，主机很可能会hang住

1. 场景说明：

最近一个客户进行应用切换演练，通过关闭Exadata的计算节点来模拟数据库节点出现故障，业务可能会出现的影响。

2. 遭遇故障

(1).切换演练的当晚，客户在计算节点执行init 0来关闭其中的一台计算节点。等待了10分钟左右，该主机还没有完全关闭，该主机的硬盘灯还在频繁闪烁。我感觉不太对劲，一般情况下不会这么久呀，于是回到办公区，通过命令行登录到该主机的ILOM，查看控制台信息，发现命令行的ILOM当前的日志输出为：

INFO： task rmmod:8113 blocked for more than 120 seconds.

"echo 0 > /proc/sys/kenel/hung_task_timeout_secs" disables this messag.

Call Trace:

rds_ib_remove_one=0xf0/0x110 [rds_rdma]

? autoremove_wake_funcion

ib_unregister_device

mlx4_ib_remove

mlx4_remove_device

.......

(2).因为有时命令行的ILOM日志输出和Java控制台图形界面日志输出不一致，所以我必须同时打开ILOM的Java控制台，看看图形界面的ILOM当前是什么日志输出。ILOM的Java控制台日志输出如图所示：

(3). 可以看出，当前系统已经出现问题，操作系统无法关闭，在关机时，系统hang住。

3. 故障分析

只能根据 Call Trace信息搜索MOS网站，找到一篇文章：Reboot Hangs Running dbnodeupdate.sh While Upgrading Exadata Db Server (Doc ID 1620826.1)

这篇文章是在Exadata进行image升级的过程中系统重启时遭遇BUG而hang住，这个BUG与升级无关，任何的重启主机操作，都有可能遭遇这个BUG。

看样子，我现在遇到的故障与这个案例完全一致。

4. 故障解决方案

永久的解决办法是：升级image版本，这个BUG是操作系统内核相关的BUG，升级image版本，也会升级操作系统的内核。

临时的解决办法是：reset /sys, 也即强制关机重启。

当天晚上，临时升级image版本是不可能的事情，手动reset /sys后，恢复正常。

什么情况会触发这个BUG，官方没有说明，但感觉与该系统长时间运行有关。（该节点连续运行了1100多天，第一次关机hang住后，手动reset /sys，恢复正常，接着再次init 0关机，而第二次关机时没有出现hang的故障）

从这个案例可以看出，以后如果有image升级之类的工作，强烈建议升级之前先重启一遍所有节点，防止在升级的过程中出现这种故障。
相关阅读:
牛客小白月赛21
牛客小白月赛21
CodeForces 1333-C Eugene and an array（子区间和为0、前缀和）
页面大小、页表项、虚拟地址和物理地址之间的关系（转）
001-Paint_FreePythonGames项目代码详解（每行都有注释！！！）
第17讲~第19讲：函数：python的乐高积木
 第16讲：序列！序列！
第15讲：字符串格式化
 练习23--字符串、字节和编码
 第14讲：字符串--各种奇葩内置方法
原文地址：https://www.cnblogs.com/missyou-shiyh/p/13266356.html