• POWER740硬盘更换步骤


     

    更换前的准备

    1.查看报错日志。

    执行errpt列出报错条目

    IDENTIFIER TIMESTAMP T C RESOURCE_NAME  DESCRIPTION

    A39F8A49   0611123015 T S syserrlg       ERROR LOGGING BUFFER OVERFLOW
    B6267342   0611123015 P H hdisk
    0         DISK OPERATION ERROR
    A39F8A49   0611123015 T S syserrlg    
      ERROR LOGGING BUFFER OVERFLOW

    从上面的输出中找出对应的IDENTIFIER,查看报错详情:errpt -aj B6267342|more

    LABEL: SC_DISK_ERR2

    IDENTIFIER: B6267342

    Date/Time: Tue Oct 24 09:15:4

    9 BEIST 2017

    Sequence Number: 1510

    Machine Id: 00C89B354C00

    Node Id: DCBJLSFX04

    Class: H

    Type: PERM

    Resource Name: hdisk0

    Resource Class: disk

    Resource Type: scsd

    Location: U78A0.001.DNWHKW3-P2-D4

    VPD:

    Manufacturer................IBM

    Machine Type and Model......ST3146356SS

    FRU Number..................10N7204

    ROS Level and ID............45363046

    Serial Number...............3QN2WT58

    EC Level....................D76038

    Part Number.................10N7203

    Device Specific.(Z0)........000005329F001002

    Device Specific.(Z1)........0120E60F

    Device Specific.(Z2)........0021

    Device Specific.(Z3)........09347

    Device Specific.(Z4)........

    Device Specific.(Z5)........22

    Device Specific.(Z6)........D76038

    Description

    DISK OPERATION ERROR

    Probable Causes

    DASD DEVICE

    Failure Causes

    DISK DRIVE

    DISK DRIVE ELECTRONICS

        Recommended Actions

        PERFORM PROBLEM DETERMINATION PROCEDURES

    Detail Data

    PATH ID

    0

    SENSE DATA

    0A00 2A00 0751 0B30 0000 4804 0000 0000 0000 0000 0000 0000 0102 0000 7000 0100

    0000 0018 0000 0000 5D00 0800 0000 0000 015D 0008 FFFF FFFF FFFF 0000 0000 0000

    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

    0000 0000 0000 0000 18C2 000B D900 0000 0000 0000 0000 0000 0000 0000 0083 0000

    0000 0010 000D

    Diagnostic Analysis

    Diagnostic Log sequence number:    2049

    Resource tested:    hdisk0

    Resource Description:    SAS Disk Drive

    Location:        U78A0.001.DNWHKW3-P2-D4

    SRN:            2556-130

    Description:        Error log analysis indicates problem reported by disk

    drive's self monitoring function.

    Possible FRUs:

    hdisk0 FRU: 10N7204 U78A0.001.DNWHKW3-P2-D4

    SAS Disk Drive

    2.查看HDISK0S/NP/N号等,在换盘的时候做对照  lscfg –vl hdisk0  

    hdisk0U78A0.001.DNWHKW3-P2-D4 Other SCSI Disk Drive

     

    Manufacturer................MAXTOR

    Machine Type and Model......ATLAS10K5_73SCA

    ROS Level and ID............4A4E5A48

    Serial Number...............D210K4XK

    Device Specific.(Z0)........000003025B00013E

    Device Specific.(Z1)........

    注意locationU78A0.001.DNWHKW3-P2-D4要与机器对应无误

    3.确认原有的状态

    显示一个卷组中的所有物理卷信息,名称,状态,和分区情况:lsvg -p rootvg

    rootvg:

    PV_NAME PV STATE TOTAL PPs FREE PPs FREE DISTRIBUTION

    hdisk0 missing 548 503 109..100..75..109..110

    hdisk1 active 548 503 109..100..75..109..110

    确认镜像状态lsvg -l rootvg

    rootvg:

    LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

    hd5 boot 1 2 2 closed/stale N/A

    hd6 paging 8 16 2 open/syncd N/A

    hd8 jfs2log 1 2 2 open/stale N/A

    hd4 jfs2 2 4 2 open/stale /

    hd2 jfs2 19 38 2 open/stale /usr

    hd9var jfs2 5 10 2 open/stale /var

    hd3 jfs2 1 2 2 open/stale /tmp

    hd1 jfs2 1 2 2 open/stale /home

    hd10opt jfs2 4 8 2 open/stale /opt

    hd11admin jfs2 1 2 2 open/stale /admin

    livedump jfs2 2 4 2 open/stale /var/adm/ras/livedump

    注意LPs和PPs一定要为1:2

    查看rootvg卷组的详细信息及状态:lsvg rootvg

    VOLUME GROUP: rootvg VG IDENTIFIER: 00c57e5f00004c000000015f342b9397

    VG STATE: active PP SIZE: 128 megabyte(s)

    VG PERMISSION: read/write TOTAL PPs: 1096 (140288 megabytes)

    MAX LVs: 256 FREE PPs: 1006 (128768 megabytes)

    LVs: 11 USED PPs: 90 (11520 megabytes)

    OPEN LVs: 10 QUORUM: 1 (Disabled)

    TOTAL PVs: 2 VG DESCRIPTORS: 3

    STALE PVs: 1 STALE PPs: 31

    ACTIVE PVs: 1 AUTO ON: yes

    MAX PPs per VG: 32512

    MAX PPs per PV: 1016 MAX PVs: 32

    LTG size (Dynamic): 128 kilobyte(s) AUTO SYNC: no

    HOT SPARE: no BB POLICY: relocatable

    PV RESTRICTION: none INFINITE RETRY: no

    注意STALE PVs/PPs数量

    4.迁移dump设备

    因为原先系统在做镜像时,dump设备不会被镜像,所以现在要确定好dump设备的位置

    如果在坏盘hdisk0上,此时应当迁移至hdisk1上。反之,如果在好盘hdisk1上,则无需此迁移步骤。

    确认dump设备位置:lspv -l hdisk0,lspv -l hdisk1
    hdisk0:
    LV NAME               LPs     PPs     DISTRIBUTION          MOUNT POINT
    hd6                   2      
    4       00..02..00..00..00    N/A
    hd8                   1      
    2       00..00..01..00..00    N/A
    hd5                   1      
    2       01..00..00..00..00    N/A
    hd9var                4      
    8       00..00..04..00..00    /var
    hd3                   16      
    32      00..00..16..00..00    /tmp
    hd4                   8      
    16      00..00..08..00..00    /
    hd2                   16      
    32     00..00..16..00..00    /usr
    hd1                   4      
    8      00..00..04..00..00    /home
    hd10opt               11      
    22      00..00..11..00..00    /opt
    livedump              1      
    2       00..01..00..00..00    /var/adm/ras/livedump
    lg_dumplv             4      
    4       00..04..00..00..00    N/A
    hd11admin             1      
    2       00..00..01..00..00    /admin

    hdisk0上,须做迁移:migratepv -l lg_dumplv hdisk0 hdisk1

    确认lg_dumplv已经迁移到hdisk1上:lspv -l hdisk1

    HDISK0ROOTVG的镜像中移除unmirrorvg rootvg hdisk0  

    0516-1246 rmlvcopy: If hd5 is the boot logical volume, please run 'chpv -c <diskname>'

    as root user to clear the boot record and avoid a potential boot

    off an old boot image that may reside on the disk from which this

    logical volume is moved/removed.

    0516-1804 chvg: The quorum change takes effect immediately.

    0516-1144 unmirrorvg: rootvg successfully unmirrored, user should perform

    bosboot of system to reinitialize boot records. Then, user must modify

    bootlist to just include: hdisk1.

     

    查看物理卷状态  lspv  rootvg

    hdisk0 00c57e5fa8a95af5 rootvg active

    hdisk1          00c3f435d0f4916c                    rootvg          active

    查看pv上的逻辑卷状态(LPsPPs的比例为11lspv -l hdisk1hdisk1:

    LV NAME LPs PPs DISTRIBUTION MOUNT POINT

    LV NAME               LPs     PPs     DISTRIBUTION          MOUNT POINT
    hd6                   2       2       00..02..00..00..00    N/A
    hd8                   1       1       00..00..01..00..00    N/A
    hd5                   1       1       01..00..00..00..00    N/A
    hd9var                4       4       00..00..04..00..00    /var
    hd3                   16      16      00..00..16..00..00    /tmp
    hd4                   8       8       00..00..08..00..00    /
    hd2                   16      16      00..00..16..00..00    /usr
    hd1                   4       4       00..00..04..00..00    /home
    hd10opt               11      11      00..00..11..00..00    /opt
    livedump              1       1       00..01..00..00..00    /var/adm/ras/livedump
    lg_dumplv             4       4       00..04..00..00..00    N/A
    hd11admin             1       1       00..00..01..00..00    /admin

    这时HDISK0不再和HDISK1MIRROR  ,把hdisk0rootvg中去除  reducevg rootvg hdisk0  

     

    更换新硬盘

    AIX上通过diag判定DISK位置

    #diag 执行命令回车

    选择黑色部分

    用PgDn键翻页找到Hot plug Task回车

    选择黑色部分,回车

    继续选择黑色部分

    选择想判定位置的目标DISK,比如:hdisk0

    回车,这个时候去观察硬盘,你会发现硬盘的指示灯会显示"红色",这个硬盘就是你需要判定的目标盘。

    如果想把这个有故障的硬盘从SCSI剔除,F3返回上一级菜单选择"Replace/Remove a Device Attached to an SCSI Hot Swap Enclosure Device"

    光标移到hdisk0处,回车

    然后拔掉故障磁盘,插上新的磁盘,执行cfgmgr –v,重新识别出新插的磁盘。

    消除系统警告灯

    选择黑色部分,回车

    用Enter键选择黑色部分,在按F7或者Esc+7键commit

    (这里再补充另一种删除硬盘的方法:reducevg后执行rmdev -dl hdisk0 但非常不推荐使用。具体步骤请自行百度)

    重做镜像

    确认新盘hdisk0是否有PVIDlspv  rootvg

    hdisk000c2f65fa4a27df5 none none

    hdisk1          00c3f435d0f4916c                    rootvg          active

    上面标红的即是。

    如果没有,需要手动添加:chdev -l hdisk0 -a pv=yes

     

    HDISK0出现后, HDISK0加到ROOTVG  

    #extendvg rootvg hdisk0 

      

    MIRROR  mirrorvg –S rootvg (也可执行mirrorvg –c 2 rootvg 等待时间较长) 

    0516-1804 chvg: The quorum change takes effect immediately.

    0516-1126 mirrorvg: rootvg successfully mirrored, user should perform

    bosboot of system to initialize boot records. Then, user must modify

    bootlist to include: hdisk1 hdisk0.

     

    查看PV  lspv  

    Hdisk0          00x9k241k2l3811n                    rootvg          active

    hdisk1          00c3f435d0f4916c                    rootvg          active

     

    HDISK0上创建boot image  

    bosboot –ad hdisk0  

    bosboot: Boot image is 51228 512 byte blocks

    先确认当前启动顺序bootlist –m normal -o

    改变启动设备的顺序  bootlist –m normal hdisk0 hdisk1 cd0 

    确认修改后的启动顺序bootlist –m normal -o

    后续操作:在HMC上关闭事件,系统中执行errclear 0清空相关报错。

    一些补充:

    若该机器上有多个lpar,哪个报出来的就在哪个上操作,另一个lpar上不用动。

    换硬盘过程中不需要重启。

    reducevg后可能产生的其他报错http://blog.sina.com.cn/s/blog_149d7c9f30102vsae.html

    若遇到hmc终端打不开(java版本问题),可尝试使用vtmenu

     

     

  • 相关阅读:
    Valid Parentheses
    3Sum
    泛型(一)
    Longest Common Prefix
    Roman to Integer
    Integer to Roman
    Container With Most Water
    知道创宇研发技能表v2.2
    anti-dns pinning 攻击
    dominator
  • 原文地址:https://www.cnblogs.com/jonathanyue/p/9301262.html
Copyright © 2020-2023  润新知