Linux系统中的硬件问题如何排查?(2)
在Linux系统中,对于硬件故障问题的排查可能是计算机管理领域最棘手的工作,即使是经验相当丰富的用户有时也会遇上自己搞不定的状况,本文分享一些实用的技巧与处理方法,希望有助于读者朋友理解、查明并最终搞定硬件难题。
硬件分析
由于在追踪硬件问题、尝试加以解决方面存在数以百计的处理方案,因此在实际操作中感到迷茫或是淹没在互联网那数不清的案例当中都是极为正常的现象--人生最大的悲哀也莫过于此。我给大家的忠告是,尽管以有条理的方式对待每一次硬件故障,最大程度减少误判与干扰因素。
好吧,我们先来假设大家已经遇上了一起硬件故障。在现实中有些故障真实存在、有些则只是我们的误判或者偶然现象,不过在这里我们暂时只讨论那些真正存在的问题。
备份与更新
首先也是最关键的一步,为自己的数据做好备份。一旦设备开始捣乱,我们的底线就是千万不要失去任何宝贵的资料信息,这一步在修复计划中可谓不可或缺。
第二个步骤是对设备进行全面更新。在Linux领域,这意味着下载所有可用的系统更新,因为其中可能包含着对解决硬件问题至关重要的固件及驱动程序修复补丁。就算没有这些针对性内容,新内核也往往能更好地支持设备上的硬件。举例来说,SSD TRIM命令只能在2.6.33内核中生效。同样,Sandy Bridge也仅支持最新的几个系统发行版本。英伟达的290.XX驱动程序中可能包含一些早先版本不具备的额外功能或重要修复代码。
启动日志
如果我们的设备中存在已经完全损坏、部分损坏或者发生严重问题的硬件,那么首先想到的肯定是要看看启动过程有没有对此进行记录及反馈。为此,大家需要查询系统中的启动日志。在大多数情况下,Linux系统的启动日志被保存在/var/log路径下,文件名通常为boot.log或者boot.msg等。如下图所示:
不要看到错误信息就关注!
从上图中,大家可以看到几条红色的失败提示信息与黄色警告信息。暂时把它们放在一边,它们可能与故障有关也可能并无关系,事实上我们不要因为干扰因素而影响到正常的检查流程。再次强调,大家现在要做的是确定硬件方面的某种问题,就目前而言,我们只应该关注那些与问题硬件确切相关的内容。如果没什么关系,那么直接跳过就好。事实上,很多情况下我们都可以预估问题的出现范围并直接到对应部分进行检查。