• 记一次硬件故障,并普及点硬件知识


    记一次硬件故障

    既当故事,也做见识~

    始末

    事情是这样的,星期四的时候需要用工作站GPU进行AI模型训练,所以把GPU主板驱动升级了一下,然后就运行了1天,晚上的时候暂停任务,心想着让工作站休息一晚,明天继续吧(那GPU运转和产热真是夸张啊,现在知道为什么GPU都有两个风扇了)

    第二天把工作站重新开机,发现远程连接不了了,这就坑了

    尝试

    于是先ping了一下,发下不通,然后登陆路由查看了一下,没发现工作站,那肯定是开不了机了

    接着找了个显示器连接到了工作站上,发现开机没反应,显示器一点变化都没有

    这时候学生时代两层机房的管理经验就用上了,把工作站拆了

    1.GPU落灰.png

    发现GPU落灰挺严重的,估计是大量运算卷起的灰尘,加之工作站刚安装的时候显卡也出现过一次接触不良的情况,遂拆了重新装

    先拧开螺丝(供电的线如果阻碍可以先拔了,如果不影响就不管)
    1.1.拆.png

    按一下卡扣,手握两头就可以轻松拔下(别用蛮力,显卡将近3k,主板将近4k)
    1.2.卡扣.png

    我是确保这个卡槽没问题的,要是你不确定可以安装了另一个卡槽上,工作站基本上都是多个显卡槽
    2.重新安装.png

    发现开机黑屏了(这个有个技巧,关下显示器再开,如果屏幕亮画面黑,就是黑屏)

    PS:其实开机黑屏,插拔内存就可以解决80%的情况

    那就插拔内存试试,我这边4个卡槽,先拔下内存条插下内存条金手指
    3.内存.png

    发现还是不行,开机继续黑屏

    那就得排出是否是某内存条烧坏了,于是单个插入来试

    单插外部的没事,可以开机,单插内部位置的内存不行

    3.1.不行.png

    于是得进一步排出,是卡槽出问题了,还是内存出问题

    外部内存插入里面卡槽也开不了机,里面位置的内存插入外部可以开机

    那么就可以判断里面卡槽出问题了,至于是落灰还是其他问题有待排查,先继续说

    把内部内存换个卡槽就可以了

    PS:推荐内存是一个牌子的,比如都是金士顿,有时候不太牌子的内存容易有其他问题,以前踩过坑

    然后就可以了~

    扩展

    硬盘知识

    顺便普及一个硬盘的知识点,以某老电脑为例:
    硬盘

    这个是连接线,通过这个电脑就可以访问到硬盘
    4.主板到硬盘.png

    PS:为电脑或者服务器添加硬盘的时候,这个先也要买一下,而且得看一下主板上还有没有接口

    这个是电源给硬盘供电用的线
    4.1.电源到硬盘.png

    看张详细图
    4.2.供电.png

    改装大佬

    先申明,不推广,不发链

    之前朋友想买2T的WD硬盘,500左右,问我有没有性价比高的推荐

    我说3T硬盘500左右,自己买个硬盘盒就可以用了,而且不容易坏,考虑不

    PS:经常使用的情况下:移动硬盘一般2年左右的寿命,硬盘5年左右

    5.使用.png

    最终效果
    5.1.效果.png

    缺点:需要额外供电,体积比移动硬盘大点(如果想小点可以使用笔记本的硬盘)

    PS:硬盘是3.5英寸的,笔记本硬盘是2.5英寸的,买硬盘盒需要注意一下,搞不清楚就买通用的

    题外话

    当然了,NAS也可以自己改装,多盘支持的容器+LoT+RAID 0就可以搞定了,以后有机会继续说

  • 相关阅读:
    剑指OFFER之复杂链表的复制(九度OJ1524)
    剑指OFFER之二叉树中和为某一值的路径(九度OJ1368)
    剑指OFFER之从二叉搜索树的后序遍历序列(九度OJ1367)
    剑指OFFER之从上往下打印二叉树(九度OJ1523)
    剑指OFFER之栈的压入、弹出序列(九度OJ1366)
    剑指OFFER之包含min函数的栈(九度OJ1522)
    剑指OFFER之顺时针打印矩阵(九度OJ1391)
    剑指OFFER之树的子结构(九度OJ1520)
    剑指OFFER之二叉树的镜像(九度OJ1521)
    VM安装CentOs7虚拟机后无法上网之解决方法
  • 原文地址:https://www.cnblogs.com/dotnetcrazy/p/10499515.html
Copyright © 2020-2023  润新知