• [Mark]The problems & solutions of vmware vsphere


    Vmware vSphere常见问题汇总(转)

    1、启用客户机操作系统和远程控制台之间的复制和粘贴操作

    解决方法:要在客户机操作系统和远程控制台之间进行复制和粘贴,必须使用 vSphere Client 启用复制和粘贴操作。
    步骤
    a、使用 vSphere Client 登录到 vCenter Server 系统并选择虚拟机。
    b、在摘要选项卡中,单击编辑设置。
    c、选择选项 > 高级 > 常规,然后单击配置参数。
    d、单击添加行,并在“名称”和“值”列中键入以下值。
    名称值
    isolation.tools.copy.disable false
    isolation.tools.paste.disable false
    注意这些选项将替代在客户机操作系统的 VMware Tools 控制面板中做出的任何设置。
    e、单击确定以关闭“配置参数”对话框,然后再次单击确定以关闭“虚拟机属性”对话框。
    f、重新启动虚拟机。
    2sco系统迁移过去之后找不到启动列表
    解决方法:目前解决方法:使用软驱制作应急盘,通过应急盘来找到启动列表,如果不行的话,只能使用,现成的虚拟镜像导入vmware中,但是这种方法,要自己设置与自己相关的应用。
    3linux做迁移时手动添加的逻辑分区(LVM卷),迁移过去之后找不到这些分区
    解决方法::给虚拟机额外添加硬盘后融合,然后将数据重新拷入加入的硬盘中。
    4、安装esxi的时候找不到万兆网卡
    解决方法:解决方法:安装各个厂商OEM的esxi版本。
    5、迁移时提示vss原卷不能克隆
    解决方法:解决方法:查看是否有额外的设备插在服务器上,如usb设备。
    6Windows迁移之后,配置网卡的时候,会提示“IP已经被分配给其他的适配器”
    解决方法:打开命令行窗口(运行cmd),输入:
    1)、set DEVMGR_SHOW_NONPRESENT_DEVICES=1
    2)、devmgmt.msc
    在弹出的“设备管理器”窗口。选择“查看(V)”—“显示隐藏的设备(W)”,然后展开“网络适配器”子项,可以看到一些透明图标显示的网卡信息,这些信息是源服务器的物理网卡信息。然后选择透明的设备卸载,RAS同步适配器为系统正常设备,不需要将其卸载。
    7Asianux3.0迁移之后不能显示图形化界面
    解决方法:解决方法:cp /etc/X11/xorg.conf /etc/X11/xorg.conf.bak
              vi /etc/X11/xorg.conf
    xorg.conf文件中的selection “Devices”字段中Driver对应的值修改为“vmware”即可,修改完成后通过startx启动图形化界面。
     
    8、迁移域控主机后发生当虚拟机开启后,物理机就断网
    解决方法:单播和多播的问题
    9、在VC中虚拟机的鼠标全屏之后,不能控制整个屏幕
    解决方法:当时安装的是esxi 4.1,将esxi4.1升级到esxi4.1upd01 ,同时要将VC client也升级到对应的版本。
    10、迁移过去的win2003的系统,隔段时间之后会蓝屏或重启
    解决方法:查看系统日志,有可能是杀毒软件的原因,将杀毒软件卸载重装。
                                               
    11、使用FT功能需同时具备以下条件
    解决方法:1 所有ESX必须为4.0以上,Build版本相同,以及在同一个HA Cluster中
    2 服务器的CPU要求是同一系列(并且要求是AMD Barcelona+, Intel Penryn+的CPU)
    3 BIOS中要启用VT及禁用Hyperthreading(超线程),最好同时禁用电源管理
    4 每个VM只能分配1颗vCPU
    5 要有专门的千兆网络负责FT
    6 VM要放在共享存储上
    7 VM的配置文件必须为版本7
    8 Guest OS不要启用Paravirtualized
    9 启用FT的VM不支持自动DRS
    10 启用FT的VM不支持Snapshot
    11 启用FT的VM不支持 MS Cluster
    12 启用FT的VM不支持物理RDM Mapping
    13 启用FT的VM的虚拟CD-ROM最好断开
    14 启用FT的VM不支持NPIV (N-Port ID Virtualization)
    15 启用FT的VM不支持Device HotAdd/HotPlug
    大型虚拟机可能会阻止使用容错
    如果虚拟机太大(大于 15GB)或内存的变化速率大于 VMotion 通过网络进行复制的速率,
    则启用容错或使用VMotion 迁移正在运行的容错虚拟机时可能会失败。
    12如何确认克隆后的系统SID是否更新
    解决方法:Windows2003/2008 、windows 7可使用本地账户登录系统,输入“whoami /user”查看Windows xp没有whoami命令,可通过注册表查看
    13vSphere所需要开放的端口
    解决方法:80  vCenter Server需要端口80用于直接HTTP连接。端口80会将请求重定向到HTTPS端口 443。如果意外使用了http://server而不是https://server,此端口将非常有用。
    389  此端口在vCenter Server的本地和所有远程实例上必须处于打开状态。这是vCenter Server组的目录服务的LDAP端口号。vCenter Server系统需要绑定端口389,即使没有将此 vCenter Server实例加入到
    链接模式组。如果此端口上正在运行另一服务,则最好移除该服务,或将其端口更改为其他端口。可以在从1025到65535的任一端口上运行LDAP服务。如果此实例充当Microsoft Windows活动目录,请将端口号从389 、更改为从 1025 到 65535 的任一可用端口。
    443  vCenter Server系统用于侦听来自vSphere Client的连接的默认端口。要使vCenter Server从vSphere Client接收数据,请在防火墙中打开443端口。vCenter Server系统还使用端口443侦听从vSphere Web Access Client和其他SDK客户端传输的数据。如果对HTTPS使用另一个端口号,则登录vCenter Server系统时必须使用<ip-address>:<port>。
    636  对于vCenter链接模式,这是本地实例的 SSL端口。如果此端口上正在运行另一服务,则最好移除该服务,或将其端口更改为其他端口。可以在从1025到65535的任一端口上运行 SSL服务。
    902  vCenter Server系统用于将数据发送到受管主机的默认端口。受管主机也会通过UDP端口902定期向vCenter Server系统发送检测信号。服务器和主机之间或各个主机之间的防火墙不得阻止此端口。
    902/903  不得在vSphere Client和主机之间阻塞端口902和903。这些端口由vSphere Client 使用以显示虚拟机控制台。
    8080  Web服务HTTP。用于VMware VirtualCenter Management Webservices。
    8443  Web服务HTTPS。用于VMware VirtualCenter Management Webservices。
    60099  Web服务更改服务通知端口
    如果希望vCenter Serve 系统使用不同的端口接收vSphere Client数据,请参见《VMware vSphere 数据中心管理指南
    14、虚拟机文件有哪些
    解决方法:
    .vmx         vmname.vmx     虚拟机配置文件
    .vmxf        vmname.vmxf    其他虚拟机配置文件
    .vmdk        vmname.vmdk    虚拟磁盘特性
    -flat.vmdk  vmname-flat.vmdk 预分配虚拟磁盘
    .nvram       vmname.nvram 或 nvram 虚拟机 BIOS
    .vmsd        vmname.vmsd 虚拟机快照
    .vmsn        vmname.vmsn 虚拟机快照数据文件
    .vswp        vmname.vswp 虚拟机交换文件
    .vmss        vmname.vmss 虚拟机挂起文件
    .log         vmware.log 当前虚拟机日志文件
    -#.log       vmware-#.log(其中 # 表示从 1 开始的编号) 旧的虚拟机日志条目
     
    15、如何更改vSphere Center的生成日志
    解决方法:
    修改“vpxd.cfg”文件,然后添加如下内容:
     <directory>D:VMwareLogs</directory>
     调整日志文件的大小:
     <maxFileSize>10485760</maxFileSize>
     <maxFileNum>10</maxFileNum>
    保存之后,重启vCenter Server之后,即可生效
    16windows迁移必须在迁移机上开启的服务
    解决方法:
    需要注意5个服务不能被禁用
    1)windows installer
    2)volume shadow
    3)TCP/IP netBIOS
    4)server
    5)workstation
    如果 Converter Standalone 连接远程 Windows XP 计算机失败,并发出 bad username/password 的错误消息,
    请确保 Windows 防火墙没有阻止文件和打印机共享。步骤
    1 选择开始 > 设置 > 控制面板 > 管理工具 > 本地安全策略。
    2 在左侧的安全设置列表中,选择本地策略 > 安全选项。
    VMware vCenter Converter Standalone 用户指南
    3 在右侧的策略列表中,选择网络访问:本地帐户的共享和安全模式。
    4 确保选中经典 – 本地用户以自己的身份验证。
    Windows Server 2008(确保启用了 Computer Browser Windows Service)
    Windows XP(需要打开简单文件共享,启用文件和打印机共享)
    17Linux迁移注意事项
    1)关闭防火墙(service etcinit.diptables stop)
    2)SSH 必须打开(sshd start)
    3)迁移时需要在help address时为虚拟机设置一个IP地址
    redflag 迁移之后没有图形化界面,通过Xconfigurator来重新配置。
    redhat 迁移之后没有图形化界面,通过system-config-display来重新配置。
    4)迁移后的系统不带IP,需要手动设置
    5)数据库或域需要关闭
    6)建议冷迁
    18ESXi不能解析主机名
    解决方法:
    1) Login to ESXi host
    2) vi /etc/hosts
    3) Key in every ESXi host in Cluster as the following format
       IP Address            ESXi hostname
       192.168.10.10      esx01
       192.168.10.11      esx02
        … …
       192.168.10.9        vCenter01
    4) Repeat all the above editing in all ESXi hosts
    5)Login in to vCenter
    6)Edit /Windows/System32/drive/etc/hosts
     
    19SCO迁移后添加网卡不能使用
    解决方法:
    迁移完成之后,通过netconfig来把原来的网卡删除掉,(如果进入的是图形界面,选tool-unix进入命令窗口)不要把上面的HW SCO TCP/IP Loopback driver 这个网卡删掉。
    删除下面的那个网卡,删除完成之后,后提示你重新配置内核,然后重新启动。选择sco虚拟机—编译–添加网卡。重启之后,通过netconfig来添加网卡,添加的是AMD PCNet-PCI Adapter Compatiable……的网卡,然后配置IP。
    注意配置IP的时候那个broadcast address不要改,这个是广播地址。网关不需要配置。
    20Linux下安装VMware-tools出现“/etc/vmware-tools/locations”错误
    故障内容:
     A previous installation of VMware software has been detected.
    The previous installation was made by the tar installer (version 3).
    Keeping the tar3 installer database format.
    Error: Unable to find the binary installation directory (answer BINDIR)
       in the installer database file “/etc/vmware-tools/locations”.
    解决方法:
    1、删除etc/vmware-tools目录rm -rf vmware-tools
    2. 删除/tmp/vm*   rm -rf vm*(注意不要把 VMwa*的也删除)  
    3、然后用tar –zxvf解压
    21、所有的虚拟机开启或VMotion出现“文件<unspecified filename>被锁定,无法访问”
    故障内容:环境的所有VM运行出现异常缓慢,关机后的虚拟机开机或VMotion出现“文件<unspecified filename>被锁定,无法访问”
    解决方法:检查日志,特别是存储上LUN的占用情况,如果有存储使用空间接近预警状态,请登陆存储查看,一般这种情况,是存储空间已经没有空余导致,由于vSpherer4的BUG,有时候在没有报警的情况下,存储空间就已经满了情况。请增加存储或移除部分虚拟机。
    22Windows系统的虚拟机无法进入安全模式
    解决方法:选中虚拟机右键“编辑设置”—“选项”—“引导选项”,在“启动引导延迟”填上“1000”(1秒=1000毫秒,数字可以随便填,稍大一点即可)。然后启动按F8即可进入安全模式。

    本文出自 “今夜灿烂” 博客,请务必保留此出处http://saturn.blog.51cto.com/184463/667895

    23vSpherer4.132win2003会不定时的关机,关机后无法再次登录

    故障现象:客户的X86 Windows2003VM系统在使用中会不定时的关机。关机时间不确定,几个小时到几天,关机瞬间就像物理机断电一样,关机后的VM能再次开启,但只要输入账号和密码就立即关机,连安全模式也一样状况。其他X64VM系统没有任何问题。

    解决方法:通过两个月的煎熬,排除了网络病毒、物理硬件和系统版本的原因,通过不断的分析ESXi和主机日志,发现有类似如下日志
    Sep 07 01:45:03.709: mks| SOCKET 10 (91) recv error 104: Connection reset by peer
    Sep 07 01:45:03.709: mks| SOCKET 10 (91) destroying VNC backend on socket error: 1
    Sep 07 03:26:42.676: vmx| Vix: [10666095 mainDispatch.c:907]: VMAutomation_PowerOff: Powering off. (VM Powering off)
    通过400长期的周旋,发现这是7月底发现的BUG,通过在ESXi主机下输入命令:
    /etc/init.d/sfcbd-watchdog stop 
    chkconfig sfcbd-watchdog off
    chkconfig sfcbd off
    问题解决,但VC上插件和监控状态失效,去官网(http://kb.vmware.com/selfservice/microsites/search.do?cmd=displayKC&docType=kc&docTypeID=DT_KB_1_1&externalId=2000609)下载最新补丁,安装,一切OK。
    24VMwindows2003)全屏最大化后,鼠标移动缓慢或错位
    解决方法:
    1、查看是否安装VMware-tools
    2、查看系统内硬件加速是否开启(完全)
    3、将虚拟机分辨率调整为:800×600
    4、到控制台中打开,上面菜单栏中à视图à自动匹配窗口勾去掉
    5、查看虚拟机中的显卡驱动是否为:VMware SVGA II
    一般情况下,这5点中,满足1、2、3基本可以解决问题,如果全部满足还不行那你只能阿弥陀佛了。当然前提是你已经排除VM OS本身的问题如CPU或内存占用比较大,存储读写延时等等。(注:附件中有图片)

    24、用VDR备份无法创建静默快照,因为创建快照操作超过了拖延已冻结虚拟机中 I/O 的时限。

    解决方法:停止服务VMware Tools Services,打开Vmware Tools安装程序,选择Modify。不要安装Volume Shadow Copy Services Support,完成后重启VM.
    25、如何从本地上传下载文件到ESXi主机
    解决方法:1、可以通过ESXi的命令SCP上传和下载,在没有三方工具的情况下这个命令需要需要通过另外一台Linux中转才能把需要的文件上传和下载要需要的文件下。
    2、由于Client登陆VC后,可以在上面看到共享的存储空间和本地硬盘,这说明ESXi主机内一定有一个文件同样也可以看到这些空间。经过分析发现/vmfs/volumes/目录就是存储和本地硬盘的存放点。可以通过这个目录上传和下载ESXi主机中的文件。
    26、在 vCenter Server 升级到 5.0 版本后,ESX 4.0 Update 2 主机可能崩溃
    解决方法:发生崩溃时,同时在紫色屏幕上显示以下消息:NOT_IMPLEMENTED bora/vmkernel/filesystems/visorfs/visorfsObj.c:3391。
    解决办法:升级到 vCenter Server 5.0 之前,将由 vCenter Server 管理的所有 ESX 4.0 Update 2 主机升级到 ESX 4.0 Update 3。
    27HA配置到90%时失败,提示:Internal AAM Error-agent could not start
    故障状态:
    1、第一台主机加入到Cluster没问题,但是第二台主机加入到cluster时,走到90%出错,提示如下错误:Internal AAM Errors-agent could not start
    复制代码
    2、在aam_config_util_addnode.log文件里有类似如下错误信息:
    01.01/23/10 16:20:49 [myexit ] Failure location:
    02.01/23/10 16:20:49 [myexit ] function main::myexit called from line 2199
    03.01/23/10 16:20:49 [myexit ] function main::start_agent called from line 1168
    04.01/23/10 16:20:49 [myexit ] function main::add_aam_node called from line 171
    05.01/23/10 16:20:49 [myexit ] VMwareresult=failure
    故障分析:
    这种故障一般和UDP 8043端口无法访问有一定关系;
    解决方案:
    确保UDP 8043端口畅通无阻,比如:
    执行如下命令:
    tcpdump -i vswif0 -s 900 -n udp port 8043 -w ${主机名}.pcap
     
    28、查阅和重装VirtualCenter Server agents(vpxa)服务
    故障状态:
    ·配置VMware High Availability (HA) 失败;
    ·重新配置 VMware HA时,提示如下错误:
    Could not Enable aam firewall ruleset :vim.fault.HostConfigFault
    ·无法将ESX添加到VirtualCenter;
    ·尝试重新将ESX添加到VirtualCenter时,提示如下错误:
    unable to access the specified host, either it doesn’t exist, the server software is not responding, or there is a network problem
    ·在hostd.log文件中有如下内容:
    [2010-05-24 10:45:51.463 ‘Vmomi’ 15752112 info] Throw vim.fault.AlreadyExists
    [2008-05-26 10:45:51.463 ‘Vmomi’ 15752112 info] Result:
    (vim.fault.AlreadyExists) {
       name = “vpxuser”
       msg = “”
    }
    解决方案;
    备注:当看到如下错误时,请在ESX主机上重装vpxa:
    unable to access the specified host, either it doesn’t exist, the server software is not responding, or there is a network problem.
    查看安装在ESX/ESXi服务器上的VirtualCenter agent(vpxa)版本号的方法如下:
    1.首先确定VirtualCenter的版本号:点击Help按钮,点击About可查阅;
    命令查看VMware-vpxa的命令:
    rpm -V VMware-vpxa
     
    29、使用IBM服务器可能导致ESXi/ESX 4.1服务器HBA卡和PCI设备停止响应
    故障状态:
    当使用IBM x3650 M3或BladeCenter HS22V服务器时,可能会在ESXi/ESX 4.1上遇到下面的问题:
    1、HBA卡停止响应;
    2、某些PCI设备无响应;
    3、可以在ALT+F12界面和日志信息里看到这样的信息:
    vmkernel: 6:01:34:46.970 cpu0:4120)ALERT: APIC: 1823: APICID 0x00000000 – ESR = 0x40
    4、HBA卡停止响应,例如:
          vmkernel: 6:01:42:36.189 cpu15:4274)<6>qla2xxx0000:1a:00.0: qla2x00_abort_isp: **** FAILED ****
          vmkernel: 6:01:47:36.383cpu14:4274)<4>qla2xxx 0000:1a:00.0: Failed mailbox send register test
    5、HBA卡可能进入离线状态,例如:
          vmkernel: 6:01:47:36.383 cpu14:4274)<4>qla2xxx 0000:1a:00.0: ISP error recovery failed – board disabled
    故障分析:
    具体问题还不太清楚,期待VMware官方能够给出解释并放出相关补丁;
    解决方案:
    ESXi/ESX 4.1里面雀圣启用了中断重映射代码,而这个代码和部分IBM服务器不兼容,可以通过禁止掉这个代码缺省启动的方式来临时解决这个问题:
    1、进入到命令行界面,执行如下命令:
    #esxcfg-advcfg -k TRUE ioDisableIR
    #init 6
    2、重启后检查这个选项是否依然缺省启动:
    #esxcfg-info -c
    iovDisableIR=TRUE
    备注:这就表示缺省没有启动;
    也可以利用vSphere Client登录到服务器的GUI进行修改
     
    30、虚拟机无法关闭停止在95%左右的解决办法
    一次做虚拟机回收工作,由于目标虚拟机当时杀毒软件正在运行,CPU占用很高,本来想登陆关闭虚拟机,但是远程连接根本没反映,打开VC带的控制台,鼠标点击进去,操作也是在是慢,总归到底,最后,直接将虚拟机电源关闭。之后,就看着任务开始执行,但进度条走到95%的时候,咋都不动了。
    解决思路:
    这个问题,属于一个“沟通”问题,应该从两方面入手:
    1、一个是vCenter端是否已经将此命令顺利传送到ESX;
    2、然后是,ESXi/ESX端是否顺利接到命令,以及是否执行了此命令。
    解决过程:
    1、SSH连接ESX;
    2、vmware-cmd <path.vmx> getstate 确定虚拟机状态;
         <path.vmx> 为完全路径(空格等前别忘了加上转义符 /);vmware-cmd -l命令可查看虚拟机路
    3、官方文档说若为On,可继续执行其他命令来结束虚拟机;
    但是我走到这里,显示的为Off;这就说明,ESX已经将虚拟机关闭了,那这问题就是一个沟通问题
    4、登陆VC,我想先从VC端将此问题虚拟机所在的主机断开连接,之后再重新连接,这样就会进行一次新的对话,但是,由于前一个未关闭虚拟机的任务未执行完毕,之后的任务好像都成队列似的在等待,没有反应。
    5、任务无法执行,重启相关VC和ESX服务
    VC:在Vitual Center的WIN机器上的,在服务管理器重启VC服务。
    ESX:在SSH登陆后对两个服务器执行重启。(注:虚拟机服务会短暂中断)
    命令如下:
    service mgmt-vmware restart
    service vmware-vpxa restart
    6、在这沟通中的三个服务都已经重启完毕,此时再执行步骤2时,发现返回的结果为On–那台虚拟机正在运行,发现这个,那么按照官方的文档,后续的几个命令就可以有用武之地了。
    7、kill -9 xxxx
    ps -auxwww |grep -i <VMNAME>.vmx 可以看到虚拟机的PID
    8、执行步骤2,现在已为Off
    9、登陆VC查看,刷新下,如果状态还未改变,再重启下VC服务器,即可。

    31、为主机应用Host Profiles提示compliance错误

    故障状态:

    为主机应用Host Profiles失败,提示如下错误:

    01.Specification state absent from host: device ‘<datastore>’ state needs to be set to ‘on’

    02.Host state doesn’t match specification: device ‘<datastore>’ needs to be reset

    03.Specification state absent from host: device ‘<datastore>’ Path Selection Policy needs to be set to ‘VMW_PSP_FIXED’

    04.Host state doesn’t match specification: device ‘<datastore>’ Path Selection Policy needs to be set to default for claiming SATP

    故障分析:

    这是由于PSA组件导致的;

    解决方案:

    1、右击Host Profiles后点击Enable/Disable Profiles配置选项;

    2、展开“Storage Configuration”选项,展开“Pluggable Storage Architecture”这个uxanxiang;

    3、去掉“PSA Device Configuration”;

    4、展开“Native Muti-Pathing(NMP)”这个选项后,接着展开“PSP and SATP configuration for NMP devi”选项;

    5、去掉“PSP configuration for”这个选项后点击OK即可。

    33、分析、解决IOPS导致的虚拟机/存储性能下降和虚拟机磁盘延时较大的问题

    故障状态:

    1、虚拟机性能较低;

    2、在执行备份时磁盘延时很厉害;

    3、虚拟磁盘vmdk延时较大;

    故障分析:

    这种问题基本都是由于虚拟机没有足够的IO Per Second(IOPS),或者IOPS低于30;

    解决方案:

    在解决问题前,首先要解决以下两个问题:

    问题1:什么是IOPS?

    IOPS全称为Input/Output Per Second,它是衡量一个磁盘(虚拟磁盘和物理磁盘)、存储的基本也是十分重要的标准。不同的磁盘、存储有着不同的IOPS。IOPS的高低直接会影响着系统的性能。当前,VMware虚拟化环境中最大的瓶颈也就在于这个IOPS。针对数据密集型业务的数据库业务和流媒体业务,由于它们的IOPS很大,所以在虚拟化环境中部署它们一定要充分考量它们的负载,也就是IOPS大小,结合实际的存储性能来查看是否符合业务标准。

    问题2:如何计算IOPS?

    如何计算每台虚拟机的IOPS?

    要想计算每个虚拟机的总的IOPS数量,首先就要确认磁盘类型以及它们的IOPS是多少。处于RAID阵列里面的每个盘的IO有利于增长整体存储的可用IOPS。而位于这个存储上面的单台虚拟机的IOPS,则可以通过将这个存储的总IOPS除掉虚拟机数量即可基本得到单台虚拟机的IOPS。

    现实案例:

    假定有6颗10000RPM的磁盘,那么它们的总的可用IOPS大约为150×6=900。如果LUN上面运行的虚拟机数量为50个,则单台虚拟机的IOPS为900/50=18 IOPS。如果以这个为标准,则意味着虚拟机的性能相对底下。如果想要满足虚拟机的基本IOPS需求,那么应该为900/30=30,也就是说同一个Volume里IOPS为30(最低要求)虚拟机需要数量控制在30台以下。

    备注:备份存储会消耗更多的IOPS,同时也会给Volume带来更多额外的符合。如果是这样,则需要用额外手段解决备份时的额外资源消耗(可以通过I/O meter软件来测试IOPS)

    34、丢失或锁定文档导致虚拟机无法Power On

    故障状态:

    1、虚拟机无法开启;

    2、尝试开启虚拟机时,看到类似如下错误信息:

    • Unable to open Swap File;
    • Unable to access a file since it is locked;
    • Unable to access Virtual machine configuration;

    3、在/var/log/vmkernel文件里可以看到类似如下信息:

    WARNING: World: VM xxxx: xxx: Failed to open swap file <path>ock was not free

    WARNING: World: VM xxxx: xxx: Failed to initialize swap file <path>

    4、当尝试开启虚拟机的console控制台时,可能会收到如下错误信息:

    Error connecting to <path><virtual machine>.vmx because the VMX is not started

    5、在开启虚拟机时,卡在95%位置无响应;

    6、从模板部署一台新的VM之后无法开启虚拟机;

    7、虚拟机在vCenter Server和ESXi/ESX主机之间报告控制台电源状态冲突;

    故障分析:

    导致这个问题的因素可能很多,但是众多问题中,都穿插或包含着文件损坏或文件被锁定等问题的可能。虚拟机常用的文件包括:

    • *.vswp
    • *-flat.vmdk
    • *-delta.vmdk
    • *.vmx
    • *.log

    解决方案:

    首先需要确认哪些文件处于锁定状态:

    1、利用vSphere Client登录ESXi/ESX主机、vCenter Server主机;

    2、在Datastore里找到想要开启但是无法开启的虚拟机所在位置;

    3、尝试开启虚拟机,如果无法开启且console显示错误,先查阅vmware.log日志文件的相关信息来确认问题;

    4、利用SSH或COS选用root权限登录到ESXi/ESX主机之后执行下面的命令查看虚拟机的完整路径:

    #vmware-cmd -l

    系统将输出类似如下信息来显示注册到ESXi/ESX主机的虚拟机:

    /vmfs/volumes/<UUID>/<虚拟机目录>/<虚拟机名>.vmx

    5、执行下列命令切入到这个虚拟机所在的目录:

    #cd /vmfs/voluems/<UUID>/<虚拟机目录>

    6、然后查阅vmware.log日志,在文件的尾部查看什么原因导致这个问题后再针对性的分析。

    准确定位并删除掉锁定文件

    由于虚拟机可以在主机之间移动,如果虚拟机注册到的主机保持对文件的锁定状态,那么,这个锁定文件可以有效保障ESXi/ESX主机对虚拟机文件的控制权和有效保护虚拟系统。主机由Service Console接口的MAC来确定。lock由VMkernel或Service Console负责维护;

    备注:ESXi服务器没有Service Console所以,lock由VMkernel单独负责维护;

    首先要确定VMkernel可能锁定的文件:

    1、执行下面的命令来报告锁定目录所在的MAC地址:

    #vmkfstools -D /vmfs/volumes/<UUID>/<虚拟机目录>/<锁定状态文件>

    2、由于负责锁定.vmdk文件的主机会将MAC地址写入到vmkernel日志里面,那么可以用下面的命令查阅:

    #tail /var/log/vmkernel

    35、Storage vMotion失败:looking for lines staring with “CBTMotion”

    故障状态:

    1、执行Storage vMotion失败;

    2、系统提示如下错误信息:

    01.A general system error occurred: Storage VMotion failed to copy one or more of the VM’s disks. Please consult the VM’s log for more details, looking for lines starting with “CBTMotion-“.

    复制代码3、/var/log/vmware/hostd.log文件里有类似如下信息:

    01.Failed with error 340983807: Storage VMotion failed to copy one or more of the VM’s disks. Please consult the VM’s log for more details, looking for lines starting with “CBTMotion”.

    复制代码故障分析

    可能由于虚拟机的硬件版本号过老导致;

    解决方案:

    关掉虚拟机后右击uxniji选择Upgrade Virtual Machine Hardware即可。

    36、添加LUN时提示HostDatastoreSystem.QueryVmfsDatastoreCreateOptions

    故障状态:

    系统能够扫描到Devices LUN,但是在添加过程中却提示如下错误信息:HostDatastoreSystem.QueryVmfsDatastoreCreateOptions ,如图所示:

    故障分析:

    这样的问题一般都是由于LUN的尺寸过大导致,一般来说,VMware ESXi/ESX Server标准支持最大的LUN尺寸为2TB-512Byte,但是由于国内很多技术人员对这个-512Byte并不太在意,所以习惯型的讲成2TB,这就导致很多用户在使用时,直接分配了2TB的空间,这就可能导致了上述问题;

    解决方案:

    针对这样的问题,建议如下:

    1、如果已经分好了2TB的LUN,建议调整为1.88TB左右后再尝试添加;

    2、新LUN规划用户则请严格参照官方文档的参数设计,建议是1.88TB左右为一个LUN生成Datastore

    37、vCenter Converter推送Agent出错:Converter Agent installer/uninstaller Failed

    故障状态:

    1、利用vCenter Converter推送Agent到Windows Server 2003服务器上时,失败;

    2、系统提示类是如下错误信息:

    01.Converter Agent installer/uninstaller failed on ‘xxxxxxxxx’.

    3、VMware vCenter Converter的日志文件converter-server.log里面有类似如下错误提示:

    01.[#6] [2011-01-21 10:50:55.976 04080 info ‘App’] [agentManager,83] [AgentManager] Install Agent on 192.168.10.10

    02.[#6] [2011-01-21 10:51:16.976 04080 error ‘App’] [agentManager,95] [AgentManager] Install Agent failed: converter.fault.AgentDeploymentFault

    03.[#7] [2011-01-21 11:18:37.289 03976 info ‘App’] Reusing existing VIM connection to 192.168.30.150

    04.[#7] [2011-01-21 11:18:37.476 03976 error ‘App’] Found dangling SSL error: [0] error:00000001:lib(0):func(0):reason(1)

    05.[#7] [2011-01-21 11:19:00.945 02756 info ‘App’] [agentManager,83] [AgentManager] Install Agent on 192.168.10.10

    06.[#7] [2011-01-21 11:19:21.961 02756 error ‘App’] [agentManager,95] [AgentManager] Install Agent failed: converter.fault.AgentDeploymentFault

    7.[#7] [2011-01-21 11:19:32.445 03976 info ‘App’] [diagnosticManager,357] Generating Converter.Server log bundle.

    故障分析:

    以下几种情况可能导致这样的问题:

    1、445端口没能打开;

    2、曾经手动安装过Agent后卸载;

    3、Windows服务管理其中的server服务没有启动导致的IPC$连接失败;

    4、防火墙阻绝;

    解决方案

    1、确认445端口或NetBIOS协议能正常使用;

    2、建议在Converter时关闭防火墙;

    3、如果依然有问题,尝试用Converter Standardalone版本迁移或采用ConverterCD进行冷克隆。

    38、解决在vSphere 5.0里开启HA时,提示:Datastore Heartbeating不足的问题

    故障状态:

    为ESXi 5.0+vCenter 5.0配置HA时,提示如下信息:

    故障分析:

    这是由于vSphere 5.0里的HA部分已经重写,并且新增了Datastore Heartbeating用于网络Partition心跳检测支持;

    解决方案:

    有2个选择,一个是加多存储用于心跳检测,这也是正确的选择,就不多讲,另一个就是忽略掉这个问题,方法如下:

    1、vSphere Client登录到vCenter Server 5.0后,右击HA Cluster,点击Edit,然后找到高级选项设定:

    2、再如上图所示的内容中,添加下参数:

    das.ignoreinsufficienthbdatastore

    备注:缺省情况下,这个参数的值是false的。

    39、通过vSphere Client登陆ESXi主机提示“正在更新”的问题

    故障状态:

    通过vSphere Client登陆VCenter Server4.1正常,登陆ESXi主机提示如下图:

    故障分析:

    需要通过‘vSphereclient.vmware.com’来更新Client说明客户端存在问题,由于登陆VCenter Server4.1不存在任何问题,所以基本确定版本的问题。查看ESXi版本和vSphere Client,发现Client的版本低于ESXi版本。

    解决方案:

    由于Client所在网络无法上Internet,所以无法更新Client客户端,可以通过安装高版本的Client来解决此问题。

    40、红旗32位Linux进入系统时提示”udevu”无法继续进入系统的问题

    故障状态:进入系统后,出现下图的界面,之后无法向下运行,必须按Ctrl+C才能继续向下运行

    故障分析:由于系统安装时候是完整的,光盘镜像包是完整的,安装的时候不存在任何问题。考虑到物理机上不存在这种问题,怀疑虚拟机虚拟驱动的问题,安装新的VMware-tools问题依旧。

    解决方案:考虑到红旗Linux比较新,去官方下载11月份最新的VMware-tools,问题解决   (下载地址:http://packages.vmware.com/tools/esx)

    50、虚拟机文件被锁,无法正常 power on
    故障状态:
    启动虚拟机时95%,停顿并且进程中断,提示:ubable to access files since it is locked。
    祸根:HA
    解决方法:
    1.首先将cluster中的HA功能关闭。如果该功能不关闭,容易造成死锁,,VM不断跳动,,不断再不同的ESX内循环被锁,徒劳而无功。
    2.磁盘文件被锁,要解决,必须要知道到底是哪台ESX把他给锁住了,这是关键。
    方法:看/var/log/vmkernel但是,在做这些前, 再准备些别的工作。
    3.在VC中,把被锁的VM从Inventory中remove掉。原因很简单,这是一个 unregister的过程。
    4.根据/var/log/vmkernel,搜索owner,可以找到类似以下的语句:
    Oct 19 04:23:33 esx-hostname vmkernel: 3:06:29:47.992 cpu6:1656)FS3: 1975: Checking if lock
    holders are live for lock [type 10c00001 offset 52008960 v 380, hb offset 3554304
    Oct 19 04:23:33 esx-hostname vmkernel: gen 17, mode 1, owner
    48f5f637-462688bc-fd28-0e1a6434b6f8 mtime 38112]
    OK,owner后面的48f5f637-462688bc-fd28-0e1a6434b6f8就是你的target了。 因为他就是锁住VM 的宿主.。
    5.根据以下命令,,找出到底哪台ESX的UUID是 48f5f637-462688bc-fd28-0e1a6434b6f8
    [root@esxhostname root]# esxcfg-info |grep -i ‘system uuid’
    6.找到目标主机后,当然是杀死他锁住VM的进程。之所以会被锁,原因就是HA 把VM从别的HOST迁移过来,但是又没有unregister和register的过程,所以在第3步的时候,你查看VM的Summary的时候,host ip还是属于出问题的 host。 但是VM又被新的host霸王硬上功的power on,注册都没注册, 又怎么启动呢。找到 PID 用下面的命令:
    ps -efwww|grep virtualmachine.vmx
    找到 PID 后, kill -9 PID
    7.这时候,还要确定一件事情, .vswp文件的事情。这个是给台客处理问题时吸取的经验。就因为忽略了这个,所以在杀掉迚程后,重新注册VM,还说没有 SWAP文件,启动还是失败。
    在 VM 启动时会自动生成SWAP,没有SWAP文件,其实就是因为 SWAP 存在了, 因为重名而导致无法正常生成。
    进入到/vmfs/volumes/lunid/vm_path/下,vmkfs -d virtual_machine.vswp
    或者进入Datastore Browser,在里面把SWAP文件删除也可。
    8.完全之策,你还可以进入到VM的SETTINGS–OPTIONS–SWAPFILE LOCATION, 对该保存的位置做下设置。
    9.重新注册VM。进入Datastore Browser,找到VM.vmx,add to inventory。
    10.启动 VM. Good Luck。

    51、忽视掉ESXi/vCenter Server提示SSH事件的方法

    1. vSphere Client连接到VC或者ESXi服务器;
    2. 在Home -&gt; Inventory -&gt; Hosts and Clusters里展开选中你的ESX服务器;
    3. 右边选择Configuration,然后点击Software栏目里的Advanced Settings;
    4. 在Advanced Settings里选择左边列表中的UserVars;
    5. 选中左边列表中的UserVars后,在右边拖到最下面,将UserVars.SuppressShellWarning的值改为1即可,不需要重启。
     

    52、尝试迁移一台带USB设备的VM失败
    故障状态:

    在执行虚拟机迁移向导时,如果系统检测到不兼容的USB设备存在,则系统会提示如下错误信息:

    Currently connecteddevice ‘USB 1’ uses backing ‘path:1/7/1’,which is not accessible.

    故障分析:

    这种问题通常发生在为主机开启了VMDirectPath I/O支持下的USB Passthrough Devices功能,然后为特定的VMs分配了USB设备,比如:加密狗;

    解决方案:

    1、确认USB设备能够被虚拟机识别和支持,并确保在添加USB设备到VMs时,勾选了with vMotion选项;

    2、在执行vMotion动作之前,重新尝试将USB设备添加到VMs;

    3、确认ESXi主机没被重启过,因为,ESXi主机重启之后,原本支持的vMotion WithvMotion功能将会失效。

    53、Convert Linux系统的Troublshooting过程

    (1)、确认源转换Linux机器的OS在官方的支持列表中;

    (2)、拥有root权限;

    (3)、确认DNS的设定有没有问题,注意:应该同时在Linux和Windows都加上;

    (4)、确认源Linux能够ping同ESX或vCenter的IP。如果在2%时失败,最大的可能就是权限问题或防火墙阻隔问题;

    (5)、确认Linux允许SSH登陆进去。这个,可以帮助我们在converting的时候登录到Linux系统;

    (6)、确认是给helper virtual machine设定的静待IP,而不是DHCP获取的(如果网内没有DHCP服务器);

    (7)、确认源和目标都在同一子网。如果通过路由链接的不同子网可能会出错;

    (8)、注意,converter不支持做了软阵列的Linux系统。可以用冷克隆光盘来做,它会把软阵列的设定为/dev/md0。

    (9)、VMware Converter Standalone的日志目录:C:Documents and SettingsAll UsersApplication DataVMwareVMware vCenter Converter Standalone,用于排错时用。

    54、vCenter Service Status页面故障:Unable to retrieve health status

    故障状态:

    vCenter Server Status页面提示如下错误信息:

    Unable to retrieve health status for vCenter inventory service

    Unable to retrieve health status for VMware vSphere Profile-Driven storage service

    执行vCenter Server的搜索动作时,提示如下错误提示:

    Unable to connect to webservices to perform query.

    Verify that the “VMware VirtualCenter Management WebServices” service running onhttps://<vcenter-host-name>:10443

    故障分析:

    这个问题一般都由于当vCenter Server服务发生了变更或全新安装了一台vCenter Server,但是数据库依然是原来的数据库导致;

    解决方案:

    替换掉vws.jar、jointool.jar和ds.jar文件即可,步骤如下:

    下载本文附件中的vws.zipclip_image002文件然后解压缩vws.jar、jointool.jar和ds.jar文件;

    停止掉VirtualCenter Server服务以及VirtualCenter Management Webservices服务;拷贝vws.jar和jointool.jar到C:ProgramFilesVMwareInfrastructuretomcatwebappsWEB-INFlib覆盖掉原来的文件;拷贝ds.jar文件到C:Program FilesVMwareInfrastructureInventory Servicelib覆盖掉原来的文件;重新启动相关服务或vCenter Server服务器即可。

    55、VMRC 控制台的连接已断开…正在尝试重新连接

    故障状态:

    用vSphere Client连接到ESXi 5.0的主机,启动其中的虚拟机后,无法连接控制台,打开控制台之后,窗口上方提示一行“VMRC 控制台的连接已断开…正在尝试重新连接。”

    故障分析:

    从情况看,类似于Windows系统的DEP策略处于开启状态导致的问题一样。但这个情况是所有虚拟机都提示这个错误,排错DEP的问题,用本地vSphere Client登录一个VC平台,问题仍旧一样。为了排除问题,换了一台笔记本登录VC,突然发现问题不见了。原来是本地的vSphere Client出了问题,再三思索,发现出现问题前我对本地WIN7用360安全卫士升级了补丁,是否是补丁破坏了vSphere Client某个文件呢

    解决方案:

    重现安装vSphere Client,问题解决。

    56、端口 80 的 vCenter Server 和 IIS 之间的冲突

    故障状态:

    vCenter Server 和 Microsoft Internet Information Service (IIS) 都将端口 80 用作直接 HTTP 连接的默认端口。该冲突会导致安装 vSphere Authentication Proxy 后 vCenter Server 无法重新启动。 在 vSphere Authentication Proxy 安装完成后, vCenter Server 无法重新启动。

    故障分析:

    如果安装 vSphere Authentication Proxy 时未安装 IIS ,则安装程序会提示您安装 IIS 。因为 IIS 使用端口 80 ,这是用于 vCenter Server 直接 HTTP 连接的默认端口, 所以 vCenter Server 在 vSphere Authentication Proxy。安装完成后无法重新启动。请参见第 32 页,“ vCenter Server 所需的端口” 。

    解决方案:
    要为端口 80 解决 IIS 和 vCenter Server 之间的冲突,请执行以下操作之一。

    如果在安装 vCenter Server 之前已安装 IIS 将 vCenter Server 直接 HTTP 连接的端口由 80 更改为其他值。 如果在安装 IIS 之前已安装 vCenter
    Server 重新启动 vCenter Server 之前, 将 IIS 默认网站的绑定端口由 80 更改为其他。

    57、在 UEFI 模式下安装 ESXi 后主机无法引导

    故障状态:

    在 UEFI 模式下, 在主机上安装 ESXi 后重新引导时, 重新引导可能失败。 出现此问题的同时, 还显示一条类似于以下内容的错误消息: 发生异常网络错误。无可用的引导设备 (Unexpected network error. No boot device available)。

    故障分析:

    主机系统无法识别作为引导磁盘在其上安装 ESXi 的磁盘。

    解决方案:

    1 屏幕上显示错误消息时,按 F11 显示引导选项。

    2 选择一个类似于添加引导选项的选项。该选项的文字可能有所不同,具体取决于您的系统。

    3 在安装 ESXi 的磁盘上选择文件 EFIBOOTBOOTx64.EFI 。

    4 更改引导顺序,以便主机从添加的选项引导。

    58、将 Microsoft SQL 数据库设置为不受支持的兼容模式会导致 vCenter Server 安装或升级失败

    当数据库设置为不支持的版本的兼容性模式时,使用 Microsoft SQL 数据库的 vCenter Server 安装会失败。

    故障状态:
    将显示以下错误消息: 输入的数据库用户没有使用选定数据库安装和配置 vCenter Server 所需的必要权限。 请更正以下错误 : %s

    故障分析:

    数据库版本必须是 vCenter Server 支持的版本。 对于 SQL , 即使数据库是受支持的版本, 但如果将其设置为以不支持的版本的兼容性模式运行, 仍会发生此错误。 例如, 如果将 SQL 2008 设置为以 SQL 2000 兼容性模式运
    行,就会发生此错误。

    解决方案:
    u 请确保 vCenter Server 数据库是受支持的版本, 并且没有设置为以不支持的版本的兼容性模式运行。

    59、误删运行中的虚拟机,通过xx-flat.vmdk恢复方法

    故障状态:误删了运行中的虚拟机,进入目录查看,只剩下xx-flat.vmdk文件,从文件的类型看,只是File格式,不是Virtual Disk格式,新建虚拟,选择添加已存在磁盘,提示不存在

    解决方案:

    1. 新建一虚拟机,不要创建硬盘

    2. 用ssh的方式登录host,查找xx-flat.vmdk文件所在位置及目录,

    3. 在上面这个文件相同目录下创建新xxx.vmdk文件,大小要和xx-flat.vmdk文件一样大,

    用ls -la查看xx-flat.vmdk文件大小,

    用vmkfstools -c 文件大小 -a lsilogic xxx.vmdk 来创建新磁盘文件

    4. 将这个磁盘文件添加到新建的虚拟机中;

    5. 用原文件xx-flat.vmdk覆盖新建的xxx-flat.vmdk(注意一定是-flat.vmdk),使用mv命令

    6. 完成后开启虚拟机就可以了

    60、在view桌面中,Win7下安装出现软件出现“系统管理员设置了系统策略,禁止进行此安装”的提示

    解决方案:

    1、打开“开始->控制面板->管理工具->本地安全策略”->点击“软件限制策略”,如果提示“没有定义软件限制策略”,那么就右键“创建软件限制策略”->创建后,双击右侧“强制”,选择“除本地管理员以外的所有用户”,确定

    2、windows开始菜单,运行里面输入gpedit.msc打开组策略,

    在“计算机配置”→管理模板→windows组件→windows installer,右边 第一项就是禁用windows installer。把它改成 “未配置”后者“已禁用”就可以了。

    3、删除HKEY_CLASSES_ROOTInstallerProducts4080110900063D11C8EF10054038389C注册表项目。(建议使用此法,能解决大多数你出现的情况,在运行栏里输入regedit进入注册表,按照以上路径找到项目删除就可以了)

    61、持续较高的 CPU 使用情况的解决方案

    故障状态:

    CPU 使用情况中的临时高峰表示 CPU 资源的使用情况最佳。持续较高的 CPU 使用情况可能表示存在问题。 您可以使用 vSphere Client CPU 性能图表监控主机、群集、资源池、虚拟机和 vApp 的 CPU 使用情况。

    问题 n 主机 CPU 使用情况一直很高。 CPU 使用情况值较高时会增加主机上虚拟机的就绪时间和处理器列队。

    n 虚拟机 CPU 使用情况超过 90% ,且 CPU 就绪值超过 20% 。应用程序性能将受到影响。

    原因

    主机可能缺少满足要求所需的 CPU 资源。

    解决方案: n 验证是否在主机的每台虚拟机上均安装了 VMware Tools 。

    n 将主机上或资源池中其他虚拟机的 CPU 使用情况与此虚拟机的 CPU 使用情况值进行比较。 主机的虚拟机 视图上的堆栈条形图显示主机上所有虚拟机的 CPU 使用情况。 n 确定虚拟机就绪时间过长是否由其 CPU 使用情况时间达到 CPU 限制设置所致。 如果出现这种情况, 请增

    加虚拟机上的 CPU 限制。 n 增加 CPU 份额以给予虚拟机更多机会运行。 如果主机系统受到 CPU 约束, 则主机上的总就绪时间可能仍 维持在相同级别。如果主机就绪时间没有减少,则为高优先级虚拟机设置 CPU 预留,保证它们收到所需 要的 CPU 周期。 n 增加分配给虚拟机的内存量。此操作会减少所缓存应用程序的磁盘和 / 或网络活动。这可能会降低磁盘

    I/O ,并减少主机对虚拟化硬件的需求。具有较少资源分配的虚拟机通常可累积更多的 CPU 就绪时间。 n 将虚拟机上的虚拟 CPU 数量减少到执行工作负载所需要的数量。例如,四路虚拟机上的单线程应用程序

    只能从单个 vCPU 中受益。 而管理程序还需维护三个空闲 vCPU , 占用本可用来处理其他工作的 CPU 周期。 n 如果主机不在 DRS 群集中,则将它添加到一个群集中。如果主机在 DRS 群集中,则增加主机数,并将一 个或多个虚拟机迁移到新主机上。 n 如有必要,请在主机上升级物理 CPU 或内核。

    n 使用最新版本的管理程序软件并启用 CPU 节省功能(例如 TCP 分段卸载、较大内存页面和巨型帧)。

    63、vMotion虚拟机失败:A general system error occurred:Failed to flush checkpoint

    故障状态:

    1、尝试vMotion一台虚拟机失败,提示如下错误信息:

    A general system error occurred:Failed to flush checkpointt data!

    2、此时故障虚拟机的设定如下:

    • 分辨率大于 1280×1024或小于第二个屏幕的分辨率;
    • 显卡驱动选用了WDDM;
    • 虚拟机的硬件版本号为8;

    3、vCenter的Task & Events里的详细错误描述如下:

    • An I/O error occurred while saving the checkpont:0(Resource temporarily unavailable);
    • Failed to write checkpoint data(offset xxxxxxxx,size xxxxx):Failed to resum VM;

    4、在虚拟机的vmware.log日志文件里有类似如下信息:

    .vmx| MigrateSetState: Transitioning from state 9 to 11.

    .vmx| Migrate_SetFailure: Failed waiting for data. Error bad0006. Limit exceeded.

    .vmx|

    .vmx| Migrate: cleaning up migration state.

    .vmx| MigrateSetState: Transitioning from state 11 to 0.

    .vmx| Msg_Post: Error

    .vmx| [vob.vmotion.chkpt.toobig] vMotion migration [XXXXXXXX:xxxxxxxxxxxxxxxx] failed. The checkpoint data length (xxxxx bytes) or the offset (xxxxxxxx bytes) exceeds the maximum checkpoint data length (xxxxxxxx byte).

    .vmx| [msg.moduletable.powerOnFailed] Module Migrate power on failed. 故障分析:

    这种情况可能是由于虚拟机的硬件版本号为8,WDDM驱动以及虚拟机的显存等问题导致;

    解决方案:

    由于问题可能不是由于单一原因导致,因此,可根据如下方式分别进行故障排查处理:

    1、将屏幕的分辨率调整一下,小于1280×1024或和第二块屏幕的分辨率相等;

    2、不要将虚拟机的硬件版本号升级为8;

    3、增加checkpoint cache size,将它从8MB升级到16MB,方法如下:

    • 关闭虚拟机后右击虚拟机点击Edit Settings;
    • 在弹出的对话框中找到Options页标签后选择Advanced选项,在General下选择Configuration Parameters;
    • 点击Add Row后输入如下参数:migrate.baseCptCacheSize值设定为后点击Ok应用更改;

    4、将mks.enable3d的值设定为TRUE,步骤如下:

    • 关闭虚拟机后右击虚拟机点击Edit Settings;
    • 在弹出的对话框中找到Options页标签后选择Advanced选项,在General下选择 Configuration Parameters;
    • 点击Add Row后输入,将值设定为True后点击Ok保存关闭。

    64、迁移完成vCenter Server数据库到新主机后,VirtualCenter Management WebServices不对

    故障状态:

    1、vCenter Server数据库迁移到一个拥有新主机名和IP地址的系统上时,VirtualCenter Management WebServices服务异常;

    2、vSphere Client登录服务器时,看到Performance Overview Charts报错如下:

    General report generation exception

    Perf Charts service experienced an internal error.

    Message: Report application initialization is not completed successfully. Retry in 60 seconds.

    3、vSphere Client登录到vCenter Server后搜索之类的功能都无法使用;

    4、vCenter Service Status显示VirtualCenter WebServices和很多其它服务都处于离线状态, 报如下错误信息:

    Unable to retrieve health data from https://localhost:8443

    Service initialization failed.

    故障分析:

    当vCenter Server的数据库被迁移到新位置后,必须要更改DSN的信息,然而,Tomcat Server的设定却不会随之变化,因此,我们需要对Tomcat Server进行修改之后才能正常,Tomcat Server被用于支持VirtualCenter Management Webservices服务运行;

    解决方案:

    解决方案就是进入到Tomcat Server的配置文件里,找到database_name.propeties,通常位置如下:

    • W2K3 – C:Documents and UsersAll UsersApplication DataVMwareVMware VirtualCenter
    • W2K8 – C:ProgramDataVMwareVMware VirtualCenter

    修改Tomcat Server的数据库位置方法如下:

    1、文本文件打开database_name.properties,找到如下内容:

    url=jdbc:sqlserver:/DB_hostnameDB_instance;databaseName=database_name;integratedSecurity=true

    2、修改上述文档中对应位置的数据库的对应主机名或IP地址;

    3、重启VMware VirtualCenter Management Webservices服务或重启vCenter Server服务器后,理论上即可恢复正常。

    65、在ESXi 5.0里,无法将管理网路迁移到vDS

    故障状态:

    1、无法将管理网路迁移到ESXi 5.0所在的vDS上,提示如下错误信息:

    A specified parameter was not correct

    2、vCenter Server上有类似如下的错误消息:

    Call “HostNetworkSystem.UpdateNetworkConfig” for object “networkSystem-121” on vCenter Server “vCenter in vmanager.local” failed.

    3、在hostd.log日志文件里,可以看到类似如下的日志信息:

    2012-02-10T15:54:09.649Z [FFE92A90 error ‘NetworkProvider’ opID=DA1DFDC2-00001B02-41] Unknown port type [0]: convert to UNKNOWN.

    2012-02-10T15:54:09.721Z [FFE92A90 info ‘NetworkVmkSimulator’ opID=DA1DFDC2-00001B02-41] Portgroup Management Network has 1 client[s] connected to it

    2012-02-10T15:54:09.721Z [FFE92A90 info ‘HostsvcPlugin’ opID=DA1DFDC2-00001B02-41] Simulate failed

    故障分析:

    这个问题一般都是由于网路的coredump功能有问题导致的; 解决方案:

    确认这个coredump功能处于enabled状态,方法如下:

    #esxcli system coredump network get

    Enabled: true

    Host VNic: vmk0

    Network Server IP: XXX.XXX.XXX.XXX

    Network Server Port: 6500

    也可以利用esxcfg-vswitch -l的输出结果来确认:

    PortGroup Name VLAN ID Used Ports Uplinks

    Management Network 10 2 vmnic0

    例如,如果要在上述的网路卡上关闭coredump的话,可以执行如下命令:

    #esxcli system coredump network set –enable false

    66、克隆虚拟机失败:Invalid configuration for device ‘0’

    故障状态:

    1、无法克隆虚拟机,克隆是出错:

    Failed to clone a VM,error:Invalid configuration for device “0”

    2、克隆到99%时失败;

     故障分析:

    这种问题可能是由于UTC时钟不同步的缘故;

     解决方案:

    1、vSphere Client连接到vCenter Server,点击Configuration页标签;

    2、点击Software面板下的Time Configuration选项,点击Properties;

    3、确认时间是否有问题,如果有问题,做好时间同步:

    • 点击Software面板 -> NTP Configuration -> Options -> NTP Settings;

    4、OK,重启下服务。

    67、如何生成ESXi的新证书

    通常,只有当更改主机名称或意外删除证书时,才要生成新证书。在某些情况下,可能需要强制主机生成新的证书。 a、登录 ESXi Shell 并获取 root 特权。 b、在 /etc/vmware/ssl 目录中,备份现有证书,方法是使用以下命令对其进行重命名。 mv rui.crt orig.rui.crt mv rui.key orig.rui.key    注意 如果由于删除了证书而需要重新生成这些证书,则不必执行此步骤。 c、运行命令 /sbin/generate-certificates 生成新的证书。 d、运行命令 /etc/init.d/hostd restart 重新启动 hostd 进程。 e、通过执行以下命令并将新证书文件的时间戳与 orig.rui.crt 和 orig.rui.key 进行比较,来确认主机是否已成功生成新证书。    ls -la

    68、如何删除vCenter中无用的插件

    69、冷迁虚拟机到ESXi主机后,它会自动迁移到另一台ESXi主机上

    故障状态: 冷迁虚拟机虚拟机到一台ESXi主机后,Power On时它自动跑到另一台ESXi主机上了; 故障分析: 这个事情,其实不算事情,只是由于DRS的Automation级别选定了Fully Automated导致; 解决方案: 1、点击指定的虚拟机的Tasks and Events页标签; 2、点击Events,里面可以看到:DRS migrated xxxx from hostxx to host xxx; 3、找到DRS Cluster,右击Edit Settings,在DRS Settings下点击Virtual Machine Options; 4、更改自动化级别为Disabled或Manual,即可。

    70、清除vSphere Client的登录记录

    使用vSphere Client连接多了,下拉列表里有很多的历史记录,看着有点烦.
    搜索了下,找到了E文的操作办法
    定位注册表到
    HKEY_CURRENT_USERSoftwareVMwareVMware Infrastructure ClientPreferences
    清除
    RecentConnections 的记录即可

    71、Linux系统VMXNET3虚拟网路卡时UDP包被Drop掉
    故障状态:
    ESXi 5.x系统上的Linux虚拟机,虚拟网路卡选择为VMXNET3时,UDP包被Drop掉了;
    故障分析:
    这是一个技术bug,VMware正在着手解决;
    解决方案:
    作为变通手段,只需要将VMXNET3改为E1000这个虚拟网路卡类型即可。

    72、恢复孤立的虚拟机

    故障状态:
    虚拟机显示在 vSphere Client 清单列表中,其中 (orphaned) 附加到其名称。
    故障分析:
    在极少数情况下,位于由 vCenter Server 管理的 ESXi 主机上的虚拟机可能会变为孤立状态。 vCenter Server 数据库中存在这些虚拟机,但 ESXi 主机不再能识别出它们。 故障原因:
    如果主机故障切换失败,或直接在主机上取消对虚拟机的注册时,虚拟机可能会变为孤立状态。如果发生这种情况, 请将孤立的虚拟机移动到数据中心( 该数据中心可访问其中存储着虚拟机文件的数据存储) 中的其他主机。
    解决方案:
    1 在 vSphere Client 清单列表中,右键单击虚拟机,然后选择重定位。此时将显示可用主机列表。
    2 选择要在其中放置虚拟机的主机。如果没有可用主机,请添加可访问其中存储着虚拟机文件的数据存储的主机。
    3 单击确定保存更改。虚拟机已连接到新的主机,并显示在清单列表中。

    73、从模板克隆或部署后未打开虚拟机电源

    故障状态:
    当从模板中克隆或部署虚拟机时,可以在“即将完成”页面上选中创建后打开此虚拟机电源复选框。但虚拟机在创建后可能不会自动打开电源。
    故障分析:
    创建虚拟机磁盘时,未预留交换文件大小。
    解决方案:
    n 减小虚拟机所需的交换文件的大小。可以通过增加虚拟机内存预留空间来实现。
    a 在 vSphere Client 清单中,右键单击虚拟机并选择编辑设置。
    b 选择资源选项卡,然后单击内存。
    c 使用“预留”滑块增加分配给虚拟机的内存量。

    d 单击确定。 |
    n 或者,可以通过将其他虚拟机磁盘从交换文件正在使用的数据存储中移出来增加交换文件的可用空间量。
    a 在 vSphere Client 清单中,选择一个数据存储,然后单击虚拟机选项卡。
    b 对于每个要移动的虚拟机,右键单击虚拟机,然后选择迁移。
    c 选择更改数据存储。
    d 继续完成迁移虚拟机向导。
    n 另外,可以通过将交换文件位置更改为具有足够空间的数据存储来增加交换文件的可用空间量。
    a 在 vSphere Client 清单中,选择主机,然后单击配置选项卡。
    b 在“软件”下,选择虚拟机交换文件位置。
    c 单击编辑。
    注意 如果主机属于指定虚拟机交换文件与虚拟机存储在同一目录的群集,则无法单击 编辑。您必须使用“群集设置”对话框更改群集的交换文件位置策略。
    d 从列表中选择数据存储,然后单击确定。

    74、通过NAT连接的vCenter和ESXi主机每隔30~60秒左右自动断开

    故障状态:
    通过NAT地址转换后的vCenter和ESXi主机之间的通信每30~60秒左右会中断;
    故障分析:
    这个问题一般都是由于在vCenter和ESXi主机之间无法通过NAT进行正常通信导致;
    解决方案:
    导致上述问题的原因是UDP 902端口适用于心跳的,而这个端口打开之后,2008服务器的防火墙可能会锁掉Edge Traversal,因此需要激活Allow Edge Traversal选项,步骤如下:
    1、进入到2008系统的管理工具面板里;
    2、点击Windows Firewall with Advanced Security后点击Inbound Rules;
    3、找到VMware vCenter Server – Host heartbeat规则,点击Advanced页标签;
    4、点击Allow Edge Traversal选项后,点击OK;
    5、然后重启相关服务后重新删除/添加ESXi主机到vCenter Server即可。

    75、为虚拟机添加PCI设备

    步骤如下:
    1、利用vSphere Client登录系统之后,找到要添加PCI设备的虚拟机;
    2、右击Virtual Machine-&gt;Edit Settings;
    3、在Hardware页标签点击Add;
    4、选择PCI Device然后点击Next进入下一步,悬着passthrough设备,然后点击Next进入下一步;
    5、如果确认没啥问题则点击Finish完成。

    76、数据库sa密码变更后修改vCenter Server的sa访问密码方法

    出于安全等方面考虑,SQL数据库的sa密码发生了变更,那么,这时它关联的vCenter Server这边也应该相应调整,那么,不重装就可以调整的方式如下:
    1、管理员权限登录到vCenter Server所在Windows 操作系统;
    2、进入入到如下目录:C:Program FilesVMwareInfrastructureVirtualCenter Server,执行如下命令:

    vpxd -P <new_Password>
    3、重启VirtualCenter Server services相关服务即可。

    77、“虚拟设备的数目超过给定控制器的最大值”的错误

    故障状态:

    克隆虚拟机的时候出现如下的报错:

    “虚拟设备的数目超过给定控制器的最大值”
    故障分析:
    这个问题一般都是由于在克隆虚拟机的时候,对源虚拟机做了虚拟硬件的操作导致
    解决方案

    重新克隆虚拟机,在克隆的时候不要对源虚拟机进行虚假硬件的操作。

    78、vCenter Operations Manager 5.0自动锁定了admin账户的解决方案

    故障状态:

    密码重试次数过多,导致了admin账户被锁定,无法再登录,解决思路如下:
    解决方案
    首先,确认admin账户是否真的被锁定:
    1、用root账户登录,然后执行如下命令:

    su admin

    如果该账户被锁定,则系统将会显示类似如下信息:

    Account locked due to XX failed login….

    2、然后再在Analytics虚拟机上重复上述步骤;
    当确认admin账户被锁定后,解除锁定步骤如下:
    1、root账户登录,然后执行如下命令:

    pam_tally –user admin –reset

    2、再在Analytics虚拟机上重复这个步骤即可。
    备注:
    如果想要一劳永逸的禁止掉自动锁定账户的功能则可以参考如下步骤:
    1、root账户登录,然后执行如下命令:

    /etc/pam.d/common-auth:auth requisite pam_tally.so deny=3

    2、再在Analytics虚拟机上重复上述步骤即可。

    79、 解决由于esx.conf文件锁定导致ESXi从vCenter Server断开连接的问题

    故障状态:
    1、ESXi 5.0主机莫名其妙无响应从vCenter Server断开;
    2、SSH或DCUI登录ESXi主机失败;
    3、vmkernel.log文件里没有任何问题,执行esxtop命令是可以看到CPU消耗率为100%;
    4、在hostd.log日志文件里有类似如下信息:

    1. 2012-07-07 T10:10:32.170Q [2D2D7B90 verbose ‘ThreadPool’] usage : total=19 max=62 workrun=18

    iorun=1 workQ=933 ioQ=0 maxrun=24 maxQ=934 cur=I 2012-07-07 T19:17:25.641Z [2CA47B90 verbose

    ‘ThreadPool’] usage : total=20 max=62 workrun=18 iorun=2 workQ=933 ioQ=0 maxrun=24 maxQ=934 cur=I

    2012-07-07 T10:10:32.442Q [2CA47B90 verbose ‘SoapAdapter’] Responded to service state request

    故障分析:
    这个问题可能由于esx.conf文件被锁定导致;
    解决方案:
    解除esx.conf文件的锁定状态,方法如下:
    1、登录到ESXi主机的本地命令行界面后执行如下命令:

    1. #ls -l /etc/vmware/esx.conf.LOCK

    2、执行如下命令删除掉该文件:

    1. #rm /etc/vmware/esx.conf.LOCK

    3、执行如下命令重启管理服务:

    1. $/sbin/services.sh restart

    80、配置 Qlogic BIOS 实现 Boot from SAN

    如果需要将ESXi/ESX服务器配置为Qlogic BIOS实现SAN Boot,有很几个地方需要配置。 首先需要激活 HBA BIOS,然后设定和激活选定的、用于启动ESX的LUN,具体步骤如下:

    1 、启动服务器时,按 Ctrl + Q 组合键进入到 Fast!UTIL 配置界面;

    2 、进入之后执行下列步骤:

    o 如果只有一块 HBA 卡, 则它会自动被选定,同时 Fast!UTIL 选项会出现;
    o 如果有多块 HBA 卡,则需要手动炫动需要设置的对象, 在 Select Host Adapter 屏幕上上下移动选

    定需要设置的 HBA 卡后回车;
    备注: SAN BOOT 建议尽可能使用较小的 HBA 卡 LUN 序号;

    3 、 在 Fast!UTIL Options 界面选择 Configuration Settings 后回车;

    4 、在 Configratoin Settings 界面选择 Host Adapter Settings 后回车;

    5 、在 Host Adapter Settings 界面选择 Host Adapter BIOS 后回车, 将值调整为 Enabled 模式, 这意味着为 HBA 卡激活 BIOS ;

    6 、按 ESC 退出, 然后选择 Selectable Boot Settings 后回车;

    7 、在 Selectable Boot Settings 界面,选择 Selectable Boot 后回车将值调整为 Enabled ;

    8 、选择在列表的中 Storage Processor ,选定第一个后回车打开 Select Fibre Channel Device 界面;

    9 、选择一个 Storage Processor ( SP ) 后回车;
    备注: SAN BOOT 要求 SP 后面的 LUN 的 Target ID 尽可能小。 同时需要确认 SP 和 LUN 能够最快被扫描到 .wwpn 顺序不一定对应 Target ID 顺序。如果存储阵列处于 Active/Passive 模式, 则选择的 SP 必须为 Active 路径所在的 LUN 。 如果无法确认那个 SP 的 Target ID 更小, 则可以用存储管理软件确认一下;

    10a 、如果 SP 后只挂了一个 LUN 则它将会自动成为 BOOT LUN ,因此不用再进入到下一步;

    10b 、如果 SP 后跟了 2 个以上的 LUN , 则需要在 Select LUN 界面里选择一个用于 SAN BOOT 后回车;

    11 、 如果在清单里还有其它存储适配器, 则按 C 按钮清除掉然后 ESC 二次后回车保存设定, 完成设定。

    81、Windows 7虚拟机无法通过RDP访问单可以用vSphere Client访问

    故障状态
    无法通过RDP连接到Win7但是,可以通过vSphere Client连进去,通过Console查阅;
    故障分析
    这个问题一般都是由于Win7的休眠组件导致;
    解决方案
    更改电源状态设定,步骤如下:
    1、打开虚拟机,进入到里面,找到控制面板,然后点Power Options选项;
    2、点击Change when the computer sleeps,然后将Turn Off the display选项设为Never之后将Put the computer to sleep选项设为Never即可。

    82、解决vSphere Client登录linux版vCenter失败:cannot complete login due to an inc…

    故障状态
    学生在做试验时,用vSphere Client结合普通的AD User登录到系统提示如下错误信息:

    cannot complete login due to an incorrect user name or password

    故障分析
    这种问题,仅仅在选用Linux版本的vCenter时才会出现,Windows版本的问题不会出现这个问题,是由于过多的错误登录导致vCenter Server锁掉了这个账户;
    解决方案
    1、root权限登录到Linux版本vCenter服务器;
    2、在系统下执行如下命令:

    /sbin/pam_tally –user user01@vmanager –reset

    83、如何解决系统提示红色警报但Alarms & Events里看不到任何信息

    故障状态

    系统提示红色感叹号的报警,可是在Alarms & Events里看不到任何问题

    解决方案

    1、vSphere Client登录到vCenter Server,点击Hosts And Clusters选项;
    2、点击Alarms页标签后点击Definitions.Note,选择所有的Alarms,点击Remove;
    方法二:
    利用PowerCLI命令来完成,这就简单多啰:

    Get-AlarmDefinition | %{$_.ExtensionData.RemoveAlarm()}

    方法三:
    初始化vCenter Server Alarms,步骤如下:
    1、vSphere Client登录到vCenter Server然后点击Administration -&gt; vCenter Server Settings;
    2、点击Advanced Settings,将alarm.version的值设为0;
    3、将alarms.upgraded的值设为false,然后重启VMware VirtualCenter Server服务。

    84、利用Web Client登录vCenter失败:unable to connect to vCenter Inventory Service

    故障状态
    从vCenter Server 4.1升级到5.0后,遇到如下类型的错误:
    1、无法利用Web Client登录到到vCenter,系统提示如下错误信息:

    unable to connect to vCenter Inventory Service – https://xxxx:10443
    2、好不容易登陆上去之后,vCenter Server里的Health Status不显示任何错误但是无法访问;
    3、在C:ProgramDataVMwareInstrastructureInventory ServiceLogs目录下的ds.log文件下有类似如下错误:

    Error connecting to peer:https://xxxx:10443 reason:

    org.apache.http.conn.HttpHostConnectException:Connection to https://xxxx:10443 refused.
    故障分析
    这个问题一般都由于vCenter Inventory数据库导致;
    解决方案
    更新vCenter Inventory数据库,步骤如下:
    1、进入到Windows服务管理器找到vCenter Inventory Service服务,右击,选择Stop;
    2、进入到命令行界面,删除掉所有Inventory Service目录下的相关数据,缺省位置:
    C:Program FilesVMwareInfrastructureInventory Servicedata.
    3、进入到如下目录:C:Program FilesVMwareInfrastructureInventory Servicescripts;
    4、执行如下命令重置vCenter Inventory Service数据库:
    、在服务管理器里重启vCenter Inventory Service即可解决这个问题。

    85、更改vSphere 5中虚拟机的快照delta文件位置

    默认情况下,快照产生的delta文件都是和虚拟机的工作目录放在一起的,有时候,我们出于性能和空间等多方面的因素考虑,不希望两者同在,因此,可以通过如下步骤自行调整delta文件的位置:
    1、关闭虚拟机后右击虚拟机点击Edit Settings;
    2、点击Options页标签然后在Advanced Options选项里点击General按钮;
    3、点击Configuration Parameters,点击Add Row;
    4、在Name栏输入snapshot.redoNotWithParent,在Value栏输入true;
    5、此时,重新开机即可。
    备注:在快照管理中workingDir是一个比较重要的参数,在5.0以前,这个参数决定了所有快照文件的工作目录,缺省是虚拟机的当前目录,而在5.0以后虽然这个workingDir依然存在,不过,它只能决定*.vmsn的文件存放点,其它的文件可以通过我们上面的snapshot.redoNotWithParent参数来在*.vmx文件里指定。

    86、安装vCenter Server 5.0失败:JDBC connectivity to the database using the gener…

    故障状态
    1、无法安装vCenter Server 5.0;
    2、安装失败后系统提示如下错误:

    JDBC connectivity to the database using the generated JDBC URL failed.Please enter the URL to ensure that it connects to the desired database.

    3、在VIMTOOL.Log文件里有类似如下错误信息INFO] Invoking testdbprops “C:Userswpvb1AppDataLocalTemp2{1FBCB62E-6178-455F-ADE2-07957D81A7D4}VM4273.tmp”Testing DB connection from C:Userswpvb1AppDataLocalTemp2{1FBCB62E-6178-455F-ADE2-07957D81A7D4}VM4273.tmp: [2012-07-26 11:12:50 INFO] Config name=dummy

    INFO] Property file=null

    INFO] Loaded url from props=<not set>

    INFO] Overrides=

    INFO]  prop:dbtype

    INFO]  prop:url

    INFO]  prop:password

    INFO]  prop:password.encrypted

    INFO]  prop:driver

    INFO]  prop:username

    Error: The TCP/IP connection to the host VMhost, port 1433 has failed. Error: “Connection refused: connect. Verify the connection properties, check that an instance of SQL Server is running on the host and accepting TCP/IP connections at the port, and that no firewall is blocking TCP connections to the port.”.

    [2012-07-26 11:13:05 SEVERE] Error in invocation of testdbprops

    com.microsoft.sqlserver.jdbc.SQLServerException: The TCP/IP connection to the host VMhost, port 1433 has failed. Error: “Connection refused: connect. Verify the connection properties, check that an instance of SQL Server is running on the host and accepting TCP/IP connections at the port, and that no firewall is blocking TCP connections to the port.”.

    at com.microsoft.sqlserver.jdbc.SQLServerException.makeFromDriverError(SQLServerException.java:170)

    at com.microsoft.sqlserver.jdbc.SQLServerConnection.connectHelper(SQLServerConnection.java:1049)

    at com.microsoft.sqlserver.jdbc.SQLServerConnection.login(SQLServerConnection.java:833)

    at com.microsoft.sqlserver.jdbc.SQLServerConnection.connect(SQLServerConnection.java:716)

    at com.microsoft.sqlserver.jdbc.SQLServerDriver.connect(SQLServerDriver.java:841)

    at java.sql.DriverManager.getConnection(DriverManager.java:582)

    at java.sql.DriverManager.getConnection(DriverManager.java:185)

    at com.vmware.vim.common.vdb.VdbDataSource.getConnection(VdbDataSource.java:84)

    at com.vmware.vim.vimtool.dbprops.TestDbProperties.testConnection(TestDbProperties.java:70)

    at com.vmware.vim.vimtool.dbprops.TestDbProperties.invoke(TestDbProperties.java:53)

    at com.vmware.vim.vimtool.VimTool.invokeTool(VimTool.java:156)

    at com.vmware.vim.vimtool.VimTool.main(VimTool.java:94)

    Error in invocation of testdbprops: com.microsoft.sqlserver.jdbc.SQLServerException: The TCP/IP connection to the host VMhost, port 1433 has failed. Error: “Connection refused: connect. Verify the connection properties, check that an instance of SQL Server is running on the host and accepting TCP/IP connections at the port, and that no firewall is blocking TCP connections to the port.”.

    故障分析
    主要发生在SQL服务器的缺省端口不是1443导致的;
    解决方案
    安装vCenter Server的过程中会生成和验证JDBC URL,由于缺省走的是1443端口,当变更了端口之后,安装时,就可以输入正确的JDBC地址,例如:

    jdbc:sqlserver://xxxx:port;databaseName=vcdb

    如果选用的是Local Express版本的DB时,则采用如下配置:

    jdbc:sqlserver://localhostSQLEXP_VIM;databaseName=VIM_VCDB;integratedSecurity=true

    87、 启动RHEL Linux虚拟机提示:Cannot setup NMI watchdog on CPU

    故障状态
    启动RHEL的Linux虚拟机时,Console提示如下信息:

    Cannot setup NMI watchdog on CPU 0

    Cannot setup NMI watchdog on CPU 1

    Cannot setup NMI watchdog on CPU 2

    Cannot setup NMI watchdog on CPU 3

    故障分析

    主要时部分Linux操作系统却升级活了支持Non Maskable Interrupt(NMI),而它会依赖硬件watchdog服务来监控系统是否由于硬件故障导致的异常;
    不是所有硬件都支持NMI的,因此,当虚拟机选择最新的8和7这个虚拟机硬件版本时,容易出现这个问题;
    解决方案
    关闭掉这个Non Maskable Interrupt(NMI)功能,步骤如下:
    1、进入到这台Linux虚拟机的命令行界面,然后运行如下命令:

    #vi /boot/grub/menu.lst

    2、在打开的文件里,更改nmi_watchdog的值,从1改为0,例如:

    t itle Red Hat Enterprise Linux Server (2.6.18-128.el5)

    root (hd0,0)

    kernel /vmlinuz-2.6.18-128.el5 ro root=/dev/sda nmi_watchdog=0

    initrd /initrd-2.6.18-128.el5.img

    3、保存退出后重启虚拟机再观察是否正常。

    88、vCenter升级到5.0后只剩Real time的Performance数据可用

    故障状态
    1、升级到vCenter Server 5.0后,Performance数据不再能收集并存存放了;
    2、在vCenter Server的Real Time performance里面只能看到实时数据;
    3、过去的一些统计数据依然可以在Overview和Advanced Charts里看到;
    4、在vCenter Server的vpxd日志文件里,有类似如下错误信息:

    Hint ‘noexpand’ on object ‘VPXV_counter_device’ is invalid.failed to execute process_temptable[0-2]

    故障分析
    这个问题是由于VPXV_DEVICE_COUNTER这种数据表的索引信息丢失导致,验证这些Index是否有问题,可以通过如下步骤来完成:1、利用SQL Management Studio打开vCenter Server的数据库表;
    2、找到对应的表后,找到VPXV_DEVICE_COUNTER然后可以看到类似如下的索引信息:

    VPXI_DEVICE_COUNTER_ENTITY

    VPXI_DEVICE_COUNTER_INDEX

    VPXI_DEVICE_COUNTER_NAME

    VPXI_DEVICE_STAT_ID_IDX

    3、如果有,则表示正常,如果没有则需要按照如下方式解决;
    解决方案
    如果没有上述几个索引信息,则按照如下步骤处理:
    1、连接到vCenter Server之后进入到如下目录:C:Program FilesVMwareInfrastructureVirtualCenter Server,找到VCDB_mssql.sql这个安装脚本,利用文本打开,创建缺失的索引:

    /*==============================================================*/

    /* Index: VPXI_DEVICE_COUNTER_INDEX                             */

    /*==============================================================*/

    create uOUNTER_NAME_IDX on VPXV_DEVICE_COUNTER(device_name)

    ;

    /*==============================================================*/

    /* Index: VPXI_DEVICE_STAT_ID_IDX                               */

    /*==============================================================*/

    CREATE INDEX VPXI_DEVICE_STAT_ID_IDX on VPXV_DEVICE_COUNTER(stat_id)

    ;

    2、利用SQL Management Studio打开vCenter Server的数据库,然后执行第二步中的那个VCDB_mssql.sql脚本,点击Execute,然后在VPXV_DEVICE_COUNTER验证是否索引正常。

    89、重定向VUM的日志到Syslog服务器后扫描ESXi 5.0失败

    故障状态
    1、将VMware Update Manager日志重定向到Syslog服务器后扫描ESXi 5.0失败;
    2、系统提示如下错误信息:VMware vSphere Update Manager had an unknow error

    3、在VMware Update Manager的日志信息里包含类似如下错误信息:

    [2012-02-27 16:07:48:406 ‘scanHost20’ 3348 ERROR] [hostUpdateBase, 695] Platform Configuration Error: /usr/sbin/esxupdate returned no results, exit status: 1

    [2012-02-27 16:07:48:469 ‘VcTaskMonitor’ 3348 DEBUG] [vcTaskMonitor, 60] VcTaskMonitor destroyed for session[522d9d1d-5e88-7f2b-d7fa-5f3d650e1f9a]5237c999-7888-49dd-f065-0191254e9fbb

    [2012-02-27 16:07:48:469 ‘SingleHostScanTask.SingleHostScanTask{9}’ 3348 ERROR] [singleHostScanTask, 399] SingleHostScan caught exception: Platform Configuration Error: /usr/sbin/esxupdate returned no results, exit status: 1 with code: -1

    [2012-02-27 16:07:48:484 ‘SingleHostScanTask.SingleHostScanTask{9}’ 3348 ERROR] [vciTaskBase, 564] Task execution has failed: Platform Configuration Error: /usr/sbin/esxupdate returned no results, exit status: 1

    故障分析
    这个问题一般都是由于vmsyslogd服务没有正常运行导致;
    解决方案
    确认vmsyslog服务正常运行,步骤如下:
    1、执行如下命令确认vmsyslogd服务是否正常运行:

    #ps | grep vmsyslogd

    备注:如果没有任何输出信息,则表示服务没有运行;
    2、如果没有运行,则执行如下命令启动这个服务:

    3、可以执行如下命令重新载入vmsyslogd服务:

    #esxcli system  reload

    4、再次验证vmsyslogd服务的运行状态是否正常:

    #ps | grep vmsyslogd

    90、 查看ESXi主机的管理服务的运行状态方式

    1、打开DUCI的Local ESXi Shell,然后Alt+F1进入到命令界面;
    2、执行如下命令查看hostd服务是否正常运行:

    /etc/init.d/hostd status

    输出类似如下结果:

    hostd is running

    3、如果ESXi主机有连接到vCenter Server则还可以查看vCenter Server位于ESXi主机上的Agent是否正常:

    /etc/init.d/vpxa status

    输出类似如下结果:

    vpxa is running

    91、 vCenter Server 5.0 Update1的Service Status页标签显示License Services警报

    故障状态
    1、vCenter Service Status页标签显示License Services警报;
    2、系统提示如下错误警报:

    Threshold Usage Tracking service    Alert    Cannot obtain user-defined license thresholds

    Asset properties History service    Alert    Cannot store hosts’ MAC addresses in the vCenter Server database

    Assignments Feeding service         Alert    Cannot obtain license assignments for VRAM usage

    License Usage History service       Alert    Cannot store license usage in vCenter Server database

    故障分析
    这个问题一般都是由于当升级vCenter Server到U1时VirtualCenter Management Webservices运行在AD账户下,这就可能导致Update之后的账户匹配关联丢失,进而导致服务无法启动;
    解决方案
    1、进入到Windows的服务管理器,然后打开VMware VirtualCenter Management Webservices的Properties选项;
    2、点击Log On的页标签,更改账户关联,然后重启服务即可。

    92、 位于ESXi 5.0上的Solaris的虚拟机上安装VMware Tools并更改MTU为9000

    更改MTU值为9000的目的是激活支持Jumbo Frames,好处在于可以加大单位时间的最大传输单元,步骤如下:
    1、首先确认为Solaris虚拟机添加了VMXNET3网路卡和VMware Tools;
    2、接着在Solaris命令行下面执行如下命令:

    #ndd -set /dev/vmxnet3s0 accept-jumbo 1

    3、然后将MTU值设定为9000,可以执行如下命令:

    #ifconfig vmxnet3s0 mtu 9000

    4、然后可以执行如下命令测试是成功为其配置了MTU:

    ping -s 9000  solaris_ip

    ping -s xxxx 9000 4

    备注:如果想关闭MTU则执行如下命令:

    #ndd -set /dev/vmxnet3s0 accept-jumbo 0

    ifconfig vmxnet3s0 mtu 1500

    93、解决系统提示: Virtual machine disks consolidation is needed 提示

    在 vSphere 5 环境中,有可能出现一种情况,虚拟机存在快照,但是,在虚拟机的快照管理器里却看不到任何快照信息,而在虚拟机的目录里,却可以看到虚拟机的快照 delta 文件,提示如下错误信息:

    clip_image002

    虚拟提示: Needs Consolidation 为 Yes :

    clip_image004

    针对这个问题,找到虚拟机,然后右击选择 Snapshot -&gt; Consolidate :

    clip_image006

    系统会弹出是否确实要做 Consolidate ,如果确认,点击 Yes 按钮即可, 完成之后, 可以通过进入到虚拟机所在的 Datastore 里,就可以看到所有的 delta.vmdk 文件都已经被整合处理。 如果想要快速找到所有有需要做 Consolidate 的虚拟机,可以用如下 PowerCLI 命令:
    Get-VM | Where {$_.ExtensionData.Runtime.consolidationNeeded} | Select Name

    95、如何手动备份Windows 2008系统vCenter Server的ADAM数据库

    备份Windows Server 2008 R2操作系统上安装vCenter Server的ADAM数据库需要利用dsdbutil工具来完成;
    1、进入到Windows Server 2008 R2的命令行界面,然后执行如下命令:dsdbutil

    2、在弹出的对话界面中输入:

    active instance VMwareVCMSDS

    3、执行如下命令打开ifm命令提示符:

    ifm

    4、在ifm:命令提示符下输入如下命令来创建想要创建的安装介质:

    create full M:BackupVMwareVCMSDS

    系统将输出类似如下结果:

    ifm: create full C:BackupVMwareVCMSDS

    Creating snapshot…

    Snapshot set {93758b0e-0b5f-4969-a3ae-c3672b659e08} generated successfully.

    Snapshot {d3257ca1-cb91-4535-82c0-8aa38bc0b566} mounted as C:$SNAP_201010251019_VOLUMEC$

    Initiating DEFRAGMENTATION mode…

    Source Database: C:$SNAP_201207301019_VOLUMEC$Program FilesVMwareInfrastructureVirtualCenter ServerVMwareVCMSDSadamntds.dit

    Target Database: c:BackupVMwareVCMSDSadamntds.dit

    Defragmentation Status (% complete)

    0 10 20 30 40 50 60 70 80 90 100

    |—-|—-|—-|—-|—-|—-|—-|—-|—-|—-|

    ……………………………………………

    Snapshot {d3257ca1-cb91-4535-82c0-8aa38bc0b566} unmounted.

    IFM media created successfully in C:tempVMwareVCMSDS

    5、然后即可退出dsdbutil工具界面。
    如果想要恢复用dsdbutil备份的vCenter Server ADAM数据库,则可以采取如下方式:
    1、停止掉VirtualCenter Management Webservices、VirtualCenter Server和VMwareVCMSDS服务;
    2、备份%ProgramFiles%VMwareInfrastructureVirtualCenter ServerVMwareVCDSDS下的内容;
    备注:2008的路径是%ProgramData%;
    3、执行如下命令恢复前面用dsdbutil.exe备份好的东西到上述目录:

    xcopy /os M:BackupVMwareVCMSDSadamntds.dit “%ProgramFiles%VMwareInfrastructureVirtualCenter ServerVMwareVCMSDS”

    4、重启前面停掉的3个服务即可。

    96、安装SRM提示“系统管理员设置了系统策略,禁止进行此安装”

    故障状态

    clip_image007

    解决方法
    1、打开“开始-&gt;控制面板-&gt;管理工具-&gt;本地安全策略”
    2、点击“软件限制策略”,如果提示“没有定义软件限制策略”,那么就右键“创建软件限制策略”
    3、创建后,双击右侧“强制”,选择“除本地管理员以外的所有用户”,确定。

    97、主机从vCenter Server随机断开连接,但又立即重新连接到vCenter Server

    故障状态:

    主机从vCenter Server上随机断开进入无响应状态,但又立即重新连接到vCenter Server

    故障分析:

    这很有可能是由于网络不是特别稳定或网络流量太大导致,另一方面也可能是由于vCenter Server时间同步导致。

    解决方案:

    1、用ping命令一直跟踪主机,查看是否数据包有延时或丢包的现象。

    2、如果 vCenter Server 上的系统时间调快了一分钟以上(如由于 vCenter Server 计算机上安装的时间同步软件的调整),那么主机可能在很短的一段时间内显示为从 vCenter Server 断开连接,但又立即重新连接回 vCenter Server。VMware vSphere4.1和5.0均存在此情况,请尽快升级到5.0.1.

    98、尝试查看虚拟机存储配置文件时,vSphere Client 显示一条错误消息

    故障状态:

    当vSphere Client连接到vCenter Server并尝试查看虚拟机的存储配置文件时,可能显示以下错误消息:VC 无法连接到 http:///sps/sdk 位置处的Profile-Driven Storage Service (VC is unable to connect to Profile-driven storage service at http:///sps/sdk)。当存储配置文件服务和另一服务都配置为使用端口 31000 时,会发生端口冲突。vSphere Web Client 和 vCenter Orchestrator 可导致此冲突。

    解决方案:

    重新启动 vSphere Web Client 服务和 vCenter Orchestrator 配置服务。当重新启动这些服务时,它们将选择下一个可用端口。如果计算机上只存在或运行其中一个服务,您只需重新启动该服务。

    99、vCenter Server 5.0 虚拟机可能会在清单中显示红色警告图标

    故障状态:

    在 vCenter Server 5.0 中,一些虚拟机可能会在清单中显示红色警告图标,然而虚拟机的 [警报] 选项卡却并未指示已触发任何警报。在打开和关闭虚拟机电源时会出现此情况。
    解决方案:
    在受影响的 ESX/ESXi 主机上重新启动管理代理。
    重新启动 vCenter Server 服务。
    从清单中移除 ESX/ESXi 主机,然后通过 vCenter 重新注册该主机。
    移除并重新注册受影响的虚拟机。

    上述都是临时的解决方式,VMware暂时未修正此BUG。

    100、vCenter Server 升级失败并显示以下错误: 系统管理员已设置策略以阻止此安装(和96类似)

    故障状态:

    vCenter Server 升级失败并显示以下错误: 系统管理员已设置策略以阻止此安装 (The system administrator has set policies to prevent this installation)
    如果计算机没有足够的连续内存供 Windows Server 2003 或 Windows XP 验证 .msi包或 .msp包具有正确的签名,就会发生此问题。

    解决方案:

    从 Windows 的 [开始] 菜单中,选择 [运行],键入 [control admintools] 并单击 [确定]。

    双击 [本地安全策略]。

    选择 [软件限制策略]。

    如果没有列出软件限制,则右键单击 [软件限制策略] 并选择 [新建策略]。

    在 [对象类型] 下,双击 [强制]。

    选择 [除本地管理员以外的所有用户],并单击 [确定]。

    重新启动计算机,然后重试 vCenter Server 升级。

    101、ESXi/ESX 主机上检测不到物理网卡的故障排查方式

    故障状态
    1 、 ESXi/ESX 主机无法识别物理网卡;

    2 、执行如下命令也看不到网卡列表:

    1. #esxcfg-nics -l

    故障分析:
    这种问题可能有很多种原因, 可能是不在 HCL 里面, 可能是驱动版本不对, 也可能是其它因素, 下面简单
    介绍处理方式;

    解决方案:
    1 、执行如下命令看看能不能看到物理网卡:

    1. #lspci -v | less

    看看网卡有没有出现在输出列表里,如果有,记录下 PCI slot 和 bus 号,格式为: xx:xx ;

    2 、根据第 1 步输出的信息执行如下命令来确认网卡的生产 ID 和设备 ID ( VID 和 DID ):

    1. #lspci -n | grep xx:xx

    2.

    3. 备注:这里的 xx:xx 是第一步命令所得的结果;

    3 、根据上面的输出结果确认网卡是否在官方的 HCL 支持列表里,如果在列表里则继续,如果不在, 则到
    此为止,更换网卡;

    4 、确认是否装载了合适的驱动:
    For ESXi :

    1. #vmkload_mod -l | grep < 驱动名称 >

    For ESX :

    1. #rpm -qa | grep < 驱动名称 >

    5 、如果驱动没有加载,则需要安装一下, 首先是需要到官网下载合适的驱动版本,然后执行如下命令更

    新:

    1. #esxupdate –bundle=xxx.zip update

    6 、完成后重启主机即可 ;

    7 、如果网卡还是没有检测到,则要收集日志文件来分析了:

    ESXi 的日志文件路径为:

    1. /var/log/messages

    2. /var/log/vmware/hostd-0.log

    ESX 的日志文件路径为:

    1. /var/log/vmkernel

    102、vCenter Server Heartbeat必须禁止TCP Offload Engine

    故障状态
    当为网卡激活TOE时安装完成的vCenter Server Heartbeat可能存在以下问题:
    1、操作系统启动失败表现形式可能为蓝屏;
    2、安装了包过滤但是并没有任何作用且在网络中服务器并不可见;
    故障分析
    这个问题一般都是由于vCenter Server Heartbeat不支持TCP Offload Engine的原因导致;
    解决方案
    vCenter Server Heartbeat和TOE并不兼容,所以需要尽致TOE模块:
    a.Offload IP Security
    b.Offload TCP Segmentation
    c.Offload TCP/IP Checksum
    禁止的方法如下:
    1、在计算机设备管理里面找到网卡属性的高级选项;
    2、卸载掉Packet Filter:
    a.停止掉vCenter Server Heartbeat服务和NFserverR2服务;
    b.如果有利用软件做网卡绑定,则接触绑定;
    c.如果是在备机上卸载,则最好拔掉网线;
    d.命令行切换到C:VMwarevCenter Server Heartbeatr2bin执行下列面命:
    nfpktfltr uninstall “VMwarevCenter Server Heartbeatr2driversnfpktfltr”
    e.删除掉system32driversnfpktfltr.sys和所有nfpktfltr开头的文件;
    f.进入注册表确认下列键值被成功删除掉:
    HKLMSYSTEMCurrentControlSetEnumRootnfpktfltr_mp
    HKLMSYSTEMCurrentControlSetServicesnfpkfltr
    安装Packet Filter:
    1、停止掉vCenter Server Heartbeat和NFserverR2服务;
    2、命令行切换到VMwarevCenter Server Heartbeatr2bin执行下列命令:
    nfpktfltr install “VMwarevCenter Server Heartbeatr2bin”
    3、打散网卡的Team(如果有),然后重建Team;
    4、重启服务或服务器。

    103、在ESXi5.0上安装第三方provider(可查看RAID健康状态等)

    自从VMware发布ESXi有了免费授权以后,公司里还有自己手里的测试机装了不少VMware ESXi,在不配盘柜不使用外部存储的情况下,在ESXi4.x版本上均不支持本地磁盘超过2T,其实原因是因为4.x对本地磁盘分区使用MBR,而MBR限制在2T。

    而我手里的N台ESXi主机,都很无奈的创建了若干个2T的VD来使用,用起来有点不爽。

    在VMware发布ESXi5.0后,发现它已经支持GPT分区,可以创建超过2T的数据存储,于是考虑顺便攒台装ESXi5.0的主机,经过一番搜索,发现目前最便宜的支持ESXi的RAID是Dell PERC 5I,在taobao上买了2块,因为是自己折腾用,所以没有配电池,最近硬盘疯狂涨价,只好把手里的一台nas服务器的4块2T硬盘拆下来用。

    一切都准备好,开始装系统,由于5.0原生就支持将ESXi安装到U盘,所以就把ESXi装到了U盘上,4块2T硬盘组了个6T的raid5,安装都很顺利,不过登陆到vSphere Client上发现,原来在健康状况-传感器里可以看到的raid卡状态,在5.0上消失了,经过一番搜索得出结论,vmware官方取消了所有第三方的provider,如果需要的话,得自己安装自己raid卡对应的cim provider。以下是几个参考链接(都是英文的)

    http://communities.vmware.com/thread/327238

    http://tinkertry.com/lsi92658iesxi5/

    需要手动安装的vib文件在这里下载

    http://downloads.vmware.com/d/details/dt_esxi50_lsi_2108_v534/dHRAYnRqZWRiZHAlZA==

    http://www.lsi.com/Search/Pages/downloads.aspx?k=vib&r=os%3D%22AQ5WTVdhcmUgRVNYIDUueAJvcwECXiICIiQ%3D%22

    安装方法比较简单,稍微懂点Linux的就可以操作,以下是流水账

    将下载下来的两个文件解压缩,其实就需要里面的两个vib文件

    scsi-megaraid-sas-5.34-1vmw.500.0.0.406165.x86_64.vib

    vmware-esx-provider-LSIProvider.vib

    在ESXi上开启SSH,用Winscp将这两个文件拷贝到/tmp,再用putty或者其他的终端连入ESXi,输入以下命令即可

    esxcli software vib install -v /tmp/scsi-megaraid-sas-5.34-1vmw.500.0.0.406165.x86_64.vib

    esxcli software vib install -v /tmp/vmware-esx-provider-LSIProvider.vib

    安装完以后重新启动ESXi以后,就可以在健康状况里看到RAID卡的各种状态

    104、分析、 解决 IOPS 导致的虚拟机/存储性能下降和虚拟机磁盘延时较大的问题
    故障状态:
    1 、虚拟机性能较低;
    2 、在执行备份时磁盘延时很厉害;
    3 、虚拟磁盘 vmdk 延时较大;
    故障分析:
    这种问题基本都是由于虚拟机没有足够的IO Per Second(IOPS),或者IOPS低于30;
    解决方案:
    在解决问题前, 首先要解决以下两个问题:
    问题 1 :什么是 IOPS ?
    IOPS 全称为 Input/Output Per Second , 它是衡量一个磁盘(虚拟磁盘和物理磁盘)、存储的基本也是十分重要的标准。不同的磁盘、 存储有着不同的 IOPS 。 IOPS 的高低直接会影响着系统的性能。 当前, VMware 虚拟化环境中最大的瓶颈也就在于这个 IOPS 。针对数据密集型业务的数据库业务和流媒体业务,由于它们的 IOPS 很大, 所以在虚拟化环境中部署它们一定要充分考量它们的负载, 也就是 IOPS 大小,结合实际的存储性能来查看是否符合业务标准。
    问题 2 :如何计算 IOPS ?
    当前的存储设备都有自己的基本 IOPS 标准,主流接口单盘的 IOPS 如下:

    磁盘转数( RPM 基本 IOPS
    7200 RPM 100
    10,000 RPM 150
    15,000 RPM 230

    在服务器领域,这列( RAID ) 是最常见的一种基本设备, 基本所有服务器都会做阵列, 而服务的阵列通常会有多个磁盘构成,这些磁盘自身的 IOPS 组合在一起, 根据阵列卡的性能和磁盘本身的转数、 接口补丁, 基本可以起到 IOPS 的叠加效果, 就拿 7200RPM 的磁盘而言, 假设 10 个 7200RPM 的磁盘做 RAID0 阵列, 那么, IOPS 理论上的 IOPS 值至少可达 100×10=1000 。

    如何计算每台虚拟机的IOPS
    要想计算每个虚拟机的总的 IOPS 数量, 首先就要确认磁盘类型以及它们的 IOPS 是多少。 处于 RAID 阵列里面的每个盘的 IO 有利于增长整体存储的可用 IOPS 。 而位于这个存储上面的单台虚拟机的 IOPS ,则可以通过将这个存储的总 IOPS 除掉虚拟机数量即可基本得到单台虚拟机的 IOPS 。
    现实案例:
    假定有 6 颗 10000RPM 的磁盘,那么它们的总的可用 IOPS 大约为 150×6=900 。如果 LUN 上面运行的虚拟机数量为 50 个, 则单台虚拟机的 IOPS 为 900/50=18 IOPS 。如果以这个为标准,则意味着虚拟机的性能相对底下。 如果想要满足虚拟机的基本 IOPS 需求, 那么应该为 900/30=30 , 也就是说同一个 Volume 里 IOPS 为 30 (最低要求) 虚拟机需要数量控制在 30 台以下。

    备注:备份存储会消耗更多的 IOPS , 同时也会给 Volume 带来更多额外的符合。如果是这样, 则需要用额外手段解决备份时的额外资源消耗;

    105、vSphere 5.0 里命令行操作 ESXi 主机的详细资料

    查看ESXi主机版本号:#esxcli system version get

    设置系统时间:#esxcli system time set –hour 00 –min00 –sec00

    设置Banner消息:#esxcli system welcomemsg set –message content&gt;

    配置远程Log主机:#esxcli system syslog config set –loghost=x.x.x.x

    #esxcli system syslog reload

    将主机加入到 Active Directory ( vCLI ):

    #vicfg-authconfig –server x.x.x.x –username &lt;username

    –password –authscheme AD –joindomain &lt;domain_name

    –adusername –adpassword

    验证 AD 域信息( vCLI ):#vicfg-authconfig –server x.x.x.x –authscheme AD -c

    ESXi 进入 / 退出维护模式( vCLI ):#vicfg-hostops –operation [enter|info|exit]

    关闭 / 重启单一 ESXi 主机( vCLI ): #vicfg-hostops –operation [shutdown|reboot]

    备份主机配置文件( vCLI ):#vicfg-cfgbackup -s /path/filename

    恢复主机配置文件( vCLI ):#vicfg-cfgbackup -r /path/filename

    列出主机当前所加载的 Module:#esxcli system module list –enable=true

    106、开启FT显示硬件虚拟化未启用HV

    使用 vSphere Fault Tolerance 之前,必须启用硬件虚拟化 (HV) 。

    故障状态:

    尝试打开启用了 Fault Tolerance 的虚拟机的电源时,如果未启用 HV ,则可能会显示一条错误消息。

    故障分析:

    通常情况下, 出现此错误的原因是: 对于您尝试在其上打开虚拟机电源的 ESXi 服务器, HV 在其上不可用。 硬件虚拟化不可用的原因可能是其不受 ESXi 服务器硬件支持或未在 BIOS 中启用。

    解决方法:

    如果 ESXi 服务器硬件支持硬件虚拟化,但当前未启用硬件虚拟化,请在该服务器的 BIOS 中将其启用。各种 BIOS 中启用硬件虚拟化的过程不同。请参见主机的 BIOS 文档以获取有关如何启用硬件虚拟化的详细信息。如果 ESXi 服务器硬件不支持硬件虚拟化,请切换到使用支持 Fault Tolerance 的处理器的硬件。

    107、开启FT显示无兼容主机可用于辅助虚拟机

    故障状态:

    如果打开启用了 Fault Tolerance 的虚拟机的电源, 但没有为辅助虚拟机提供任何兼容主机, 可能会显示一条错误消息。
    “近期任务”窗格中可能会显示以下错误消息:

    辅助虚拟机无法打开电源,因为没有兼容主机可以容纳该虚拟机。

    故障分析:
    这可能是由多种原因造成的,包括群集内没有其他主机、没有其他已启用硬件虚拟化的主机、数据存储不可访问、可用容量不足或主机正处于维护模式中。

    解决方法:
    如果主机数量不足,请向群集内添加更多主机。如果群集内有多台主机,请确保它们支持硬件虚拟化且硬件虚拟化已启用。各种 BIOS 中启用硬件虚拟化的过程不同。请参见主机的 BIOS 文档以获取有关如何启用硬件虚拟化的详细信息。检查主机是否有足够容量,并确认它们未处于维护模式中。

    108、开启FT过载主机上的辅助虚拟机降低主虚拟机的性能

    如果主虚拟机的执行速度似乎缓慢,即便它所在主机上的负载较轻且有空闲 CPU 时间,也请检查运行辅助虚拟机的主机是否负载较重。

    故障状态:
    当辅助虚拟机所在的主机负载过重时,这会影响主虚拟机的性能。

    此问题的症状是主虚拟机“ Fault Tolerance ”面板上的“ vLockstep 时间间隔”指示器为黄色或红色。这表示辅助虚拟机比主虚拟机的运行慢数秒。 在这种情况下, Fault Tolerance 将减慢主虚拟机的速度。 如果“ vLockstep 时间间隔”指示器长时间保持为黄色或红色,则充分表明辅助虚拟机未能获取足够的 CPU 资源,因此跟不上主虚拟机的速度。

    故障分析:

    在 CPU 资源过载的主机上运行的辅助虚拟机获取的 CPU 资源与主虚拟机获取的 CPU 资源数量可能不同。当出现此情况时,主虚拟机必须减速以使辅助虚拟机跟进,将主虚拟机的执行速度大大降低至辅助虚拟机的较慢速度。

    解决方法:

    要解决此问题, 请为主虚拟机设置明确的 CPU 预留( 以 MHz 为单位), 该预留应足以在所需性能级别上运行负载。此预留对于主虚拟机和辅助虚拟机均适用,能够确保两者均能以指定的速率执行。有关设置此预留的指导,请在启用 Fault Tolerance 前查看虚拟机的性能图表以查看在正常条件下使用的 CPU 资源量。

    109、Fault Tolerant 虚拟机故障切换

    即使主虚拟机或辅助虚拟机的 ESXi 主机未崩溃,主虚拟机或辅助虚拟机也可进行故障切换。在这种情况下,虚拟机执行不会中断, 但会临时失去冗余。 要避免此类故障切换, 请了解可能会出现此类故障切换的一些情况,并采取措施进行避免。

    与存储器有关的部分硬件故障
    当存储器访问缓慢或无法访问某台主机时,可能出现此问题。此问题发生时, VMkernel 日志中将列出许多存储器错误。要解决此问题,必须解决与存储器有关的问题。

    与网络有关的部分硬件故障
    如果日志记录网卡不能正常工作或通过该网卡与其他主机的连接断开,将触发容错虚拟机进行故障切换,从而重新建立冗余。要避免此问题,请将每个独立网卡专门用于 vMotion 和 FT 日志记录通信,并仅在虚拟机活动较少时执行 vMotion 迁移。

    日志记录网卡网络上的带宽不足
    如果主机上有过多的容错虚拟机, 则会发生此问题。 要解决此问题, 请将容错虚拟机对分布到更多的不同主机上。

    由虚拟机活动级别引起的vMotion 故障
    如果通过 vMotion 迁移容错虚拟机失败, 则虚拟机可能需要进行故障切换。 此问题通常在虚拟机过于活跃( 因而无法在对其造成最小损坏的情况下完成迁移) 时发生。 要避免此问题, 请只在虚拟机活动较少时执行 vMotion 迁移。

    VMFS 卷上活动过多可能会导致虚拟机故障切换
    在单一 VMFS 卷上执行大量文件系统锁定操作、虚拟机打开电源 / 关闭电源或 vMotion 迁移时,可能会触发容错虚拟机进行故障切换。可能发生此现象的症状为在 VMkernel 日志中收到许多有关 SCSI 预留的警告。要解决此问题, 请减少文件系统操作的数量, 或确保容错虚拟机位于 VMFS 卷上, 而且该卷上没有大量定期打开电源 / 关闭电源或使用 vMotion 进行迁移的其他虚拟机。

    文件系统空间不足导致无法启动辅助虚拟机
    请检查 /(root) 或 /vmfs/ datasource 文件系统中是否有可用空间。这些文件系统可能会因多种原因而变得空间已满,空间不足会导致您无法启动新辅助虚拟机。

    110、尝试使用附加的 USB 设备迁移虚拟机时的错误消息

    将多个 USB 设备从 ESXi 主机连接到虚拟机且一个或多个设备未启用 vMotion 功能时,通过 vMotion 进行迁移将无法继续并会发出一条并不十分明确的错误消息。
    故障状态:
    迁移虚拟机向导会在迁移操作开始之前运行兼容性检查。如果检测到不受支持的 USB 设备,兼容性检查会失败,并显示一条与以下类似的错误消息: 当前已连接的设备“ USB 1 ”使用不可访问的备用“ path:1/7/1 ” 。
    故障分析:
    将 USB 设备从主机连接到虚拟机时,必须选择虚拟机上的所有 USB 设备, vMotion 迁移才能成功。如果一个或多个设备未启用 vMotion 功能,迁移将失败。
    解决方法:
    1 请先确保设备未处在传输数据的进程中,然后再删除设备。
    2 对每个受影响的 USB 设备重新添加和启用 vMotion 。

    111、USB 直通设备不响应

    可能有多种原因导致 USB 设备不响应, 包括非安全地中断数据传输, 或客户机操作系统驱动程序向设备发送不受支持的命令。
    故障状态:
    USB 设备不响应。
    故障分析:
    数据传输被中断或使用了不支持的设备。例如,如果客户机驱动程序向某些不受支持的 USB 闪存驱动器发送
    SCSI REPORT LUNS 命令,设备会停止响应所有命令。
    解决方法:
    1 从 ESXi 主机以物理方式分离 USB 设备并重新附加该设备。
    2 完全关闭主机(并非重置)并保持关闭状态至少 30 秒,以确保主机 USB 总线电源完全关闭。

    112、从模板中完成克隆或部署后,虚拟机不会打开电源

    故障状态:
    当从模板中克隆或部署虚拟机时,可以在“即将完成”页面上选中创建后打开此虚拟机电源复选框。但虚拟机在创建后可能不会自动打开电源。
    故障分析:
    创建虚拟机磁盘时,未预留交换文件大小。
    解决方法
    n 减小虚拟机所需的交换文件的大小。可以通过增加虚拟机内存预留空间来实现。
    a 在 vSphere Client 清单中,右键单击虚拟机并选择编辑设置。
    b 选择资源选项卡,然后单击内存。
    c 使用“预留”滑块增加分配给虚拟机的内存量。
    d 单击确定。
    n 或者,可以通过将其他虚拟机磁盘从交换文件正在使用的数据存储中移出来增加交换文件的可用空间量。
    a 在 vSphere Client 清单中,选择一个数据存储,然后单击虚拟机选项卡。
    b 对于每个要移动的虚拟机,右键单击虚拟机,然后选择迁移。
    c 选择更改数据存储。
    d 继续完成迁移虚拟机向导。
    n 另外,可以通过将交换文件位置更改为具有足够空间的数据存储来增加交换文件的可用空间量。
    a 在 vSphere Client 清单中,选择主机,然后单击配置选项卡。
    b 在“软件”下,选择虚拟机交换文件位置。
    c 单击编辑。
    注意 如果主机属于指定虚拟机交换文件与虚拟机存储在同一目录的群集,则无法单击编辑。您必须
    使用“群集设置”对话框更改群集的交换文件位置策略。
    d 从列表中选择数据存储,然后单击确定。

    113、排除 vCenter Server 插件故障

    对于 vCenter Server 插件未正常运行的情况,有多种方法可更正问题。
    在 Tomcat 服务器上运行的 vCenter Server 插件拥有一些 extension.xml 文件, 其中包含可访问相应的 Web 应用程序的 URL 。这些文件位于 C:Program FilesVMwareInfrastructureVirtualCenterServerextensions 中。扩展安装程序使用计算机的 DNS 名称填充这些 XML 文件。
    来自统计信息 extension.xml 文件的示例: https://www.xxx.com:8443/statsreport/vicr.do 。
    使用这些文件的 vCenter Server 、插件服务器和 vSphere Client 必须位于同一域下的系统中。如果它们不在同一域下,或插件服务器的 DNS 发生了更改,则插件客户端将无法访问 URL ,且插件将不能正常工作。通过使用 IP 地址替换 DNS 名称,可以手动编辑 XML 文件。在编辑插件的 extension.xml 文件后,重新注册该插件。

    114、链接模式故障排除

    如果在使用链接模式组时遇到问题,请考虑以下几点。
    当有多个 vCenter Server 实例时,每个实例都必须与域控制器存在工作关系且与域中的另一个计算机不冲突。
    例如, 当对正在虚拟机中运行的 vCenter Server 实例进行克隆时, 如果没有使用 sysprep 或类似实用程序确保克隆的 vCenter Server 实例拥有全球唯一标识符 (GUID) ,就会发生冲突。如果域控制器无法访问, vCenter Server 可能无法启动。您可能无法更改受影响的 vCenter Server 系统的链接模式配置。如果发生此情况,请在域控制器中解决该问题,并重新启动 vCenter Server 。如果无法在域控制器中解决该问题,可以通过从域中移除 vCenter Server 系统并将该系统与其当前的链接模式组隔离,来重新启
    动 vCenter Server 。
    计算机的 DNS 名称必须与计算机的实际名称相匹配。 计算机名称与 DNS 名称不匹配的症状为出现数据复制问题、尝试搜索时票据错误和丢失远程实例的搜索结果。
    注意 确保 Windows 和基于网络的防火墙配置为允许链接模式。
    加入链接模式组
    以下操作顺序为加入链接模式组的正确顺序。
    步骤
    1 验证 vCenter Server 域名是否与计算机名称相匹配。 如果不匹配, 则需更改一个名称或同时更改两个名称使它们相匹配。
    2 更新 URL 以使它们与新域名和计算机名称兼容。如果不更新 URL , vCenter Server 的远程实例将无法访问 vCenter Server 系统,因为默认的 URL 条目已不再准确。
    3 将 vCenter Server 系统加入链接模式组。如果 vCenter Server 的远程实例无法再访问某个 vCenter Server 实例,可能会出现以下症状:
    n 登录组中其他 vCenter Server 系统的客户端无法查看属于对其更改域名的 vCenter Server 系统的信息,因为用户无法登录该系统。
    n 当前登录 vCenter Server 系统的所有用户都可能会断开连接。
    n 搜索查询无法返回 vCenter Server 系统的结果。
    要解决这些问题,请确保 Virtualcenter.VimApiUrl 项指向 vSphere Client 和 SDK 客户端可以访问 vCenter Server 系统的位置, 而 Virtualcenter.VimWebServicesUrl 项则指向 vCenter Server Webservices 的安装位置。对于 Virtualcenter.Instancename 项,更改值以便修改后的名称显示在 vCenter Server 清单视图中。
    下一步
    如果无法连接 vCenter Server 实例,可以使用以下操作解决问题:
    n 确保计算机已分组至对应域控制器中的正确组织单元。
    n 在安装 vCenter Server 时,确保登录的用户帐户在计算机上拥有管理员特权。
    n 要解决计算机和域控制器之间的信任问题,请将计算机从域中移除,然后重新将其加入到域中。
    n 要确保 Windows 策略缓存已更新, 请从 Windows 命令行运行 gpupdate /force 命令。 此命令将执行组策略更新。
    如果本地主机在加入操作期间无法访问远程主机,请验证以下情况:
    n 远程 vCenter Server IP 地址或完全限定域名是否正确。
    n 远程 vCenter Server 上的 LDAP 端口是否正确。
    n VMwareVCMSDS 服务是否正在运行。

    115、由于故障切换资源不足而无法打开虚拟机电源

    故障状态:
    当尝试打开 vSphere HA 群集中某个虚拟机的电源时,可能会出现 故障切换资源不足 (not enough failover resources) 错误。
    如果选择“群集允许的主机故障数目”接入控制策略且出现某些问题,则可能由于资源不足而无法打开虚拟机电源。
    故障分析:
    出现该问题可能存在多种原因。
    n 群集中的主机已断开连接、处于维护模式、无响应或出现 vSphere HA 错误。
    若主机处于断开连接状态或处于维护模式下,则通常是由用户操作导致的。若主机无响应或存在错误,则
    通常是由更为严重的问题引起的,例如,主机或代理出现故障或存在网络问题。
    n 群集包含比其他虚拟机具有更大内存或 CPU 预留的虚拟机。
    “群集允许的主机故障数目” 接入控制策略基于对插槽大小( 由虚拟机的 CPU 和内存预留两部分组成) 的
    计算。如果对插槽大小的计算由于离群虚拟机而发生偏离,则接入控制策略可能会变得过于严格并导致无
    法打开虚拟机电源。
    n 群集中没有可用的插槽。
    当群集中没有可用的插槽,或打开虚拟机电源导致插槽大小增加(因为该虚拟机的预留大于现有虚拟机的
    预留)时,会出现问题。无论是哪种情况,都应使用 vSphere HA 高级选项来减小插槽大小,使用不同的
    接入控制策略或修改策略以允许较少的主机故障。
    解决方法:
    在 vSphere Client 中, 单击显示在群集的摘要选项卡的 vSphere HA 区域中的高级运行时信息链接。该信息框显示了插槽大小以及群集中的可用插槽数。如果插槽大小过大,请单击群集的资源分配选项卡,根据预留对虚拟机进行排序以确定哪个虚拟机具有最大的 CPU 和内存预留。如果存在比其他虚拟机具有更大预留的离群虚拟机,请考虑使用其他 vSphere HA 接入控制策略(如“预留的群集资源的百分比”接入控制策略)或使用 vSphere HA 高级选项设置插槽大小的绝对上限。但这两个选项都增加了出现资源碎片的风险。

    116、存储 DRS 无法在数据存储上执行操作

    存储 DRS 生成一个警报,表明其无法在数据存储上运行。
    故障问题:
    存储 DRS 生成一个事件和一个警报,且存储 DRS 无法运行。
    故障分析:
    以下情形可能导致 vCenter Server 禁用数据存储的存储 DRS 。
    n 数据存储在多个数据中心之间进行共享。
    在多个数据中心之间共享的数据存储上不支持存储 DRS 。 某个数据中心内的主机挂载另一数据中心内的数据存储时,或将使用数据存储的主机移动到其他数据中心时,可能会出现此配置。当某个数据存储在多个数据中心之间进行共享时, 将对整个数据存储群集禁用存储 DRS I/O 负载平衡。 不过, 对于数据存储群集中所有未在多个数据中心之间进行共享的数据存储而言,存储 DRS 空间平衡仍处于启用状态。
    n 数据存储连接到不受支持的主机。
    存储 DRS 在 ESX/ESXi 4.1 及更低版本的主机上不受支持。
    n 数据存储连接到未运行 Storage I/O Control 的主机。
    解决方法:
    n 数据存储必须只显示在一个数据中心内。将主机移动到同一数据中心内,或者从驻留在其他数据中心的主
    机上卸载数据存储。
    n 确保与数据存储群集关联的所有主机都是 ESXi 5.0 或更高版本。
    n 确保与数据存储群集关联的所有主机都已启用 Storage I/O Control 。

    117、创建虚拟机过程中,存储 DRS 出错

    故障问题:
    在数据存储群集上创建或克隆虚拟机时,存储 DRS 可能会出错。 尝试在数据存储群集上创建或克隆虚拟机时,可能会收到以下错误消息: 当前状态下不允许此操作 (Operation Not Allowed in the Current State) 。 故障分析在启用了存储 DRS 的数据存储上创建虚拟机时, 存储 DRS 会检查是否存在违反规则的情况。 如果存储 DRS 无法创建符合规则的新虚拟机的磁盘, 则将出错。 出错的原因是存储 DRS 无法引用正在创建中的尚不存在的虚拟机。
    解决方法:
    修改或移除规则,然后重试创建或克隆虚拟机的操作。

    118、Converter5.0迁移Windows系统异常慢的问题

    这主要由SSL问题引起。处理如下:
    Locate the converter-worker.xml file. By default, it is located at:
    1、Windows7 and Windows2008 Server – C:ProgramDataVMwareVMware vCenter Converter Standalone
    2、Windows Vista, Windows XP and Windows 2003 – %ALLUSERSPROFILE%VMwareVMware vCenter Converter Standalone
    3、In older Windows version s– %ALLUSERSPROFILE%Application DataVMwareVMware vCenter Converter Standalone
    Take a backup of the converter-worker.xml file.
    Open the file in a text editor and locate the tag pair <useSsl></useSsl>. It is located inside the <nfc> tag and has a value of true.
    Change the value to false.
    Save and close the file.
    Restart the VMware vCenter Converter Standalone Worker service on the machine.

    119、如何打开vSphere5.0标准交换机的Cisco发现协议(CDP)

    在VMware vSphere5.0的环境下,默认的CDP协议是关闭的
    a、Down(停用)–既不发送也不接受CDP信息
    b、Listen(侦听)–接受来自物理交换机的CDP信息
    c、Advertise(通告)–将CDP信息发至物理交换机
    d、Both(二者)–将CDP信息发至物理交换机并接受来自物理交换机的CDP信息
    命令如下:
    esxcfg-cswitch -b vSwitch0
    esxcfg-cswitch -B both vSwitch0
    esxcfg-cswitch -b vSwitch0 both
  • 相关阅读:
    jquery实现图片预加载提高页面加载速度
    oracle 误删数据
    oracle 创建命令
    flash 遮住 div 解决办法
    mongodb查询find(
    mongodb中重命名column名称(更改字段名称)
    Mongodb Javascript 返回document
    mongodb mapreduce用法
    mongodb 中find中执行javascript $where
    mongodb javascript foreach使用方法
  • 原文地址:https://www.cnblogs.com/yongdaiblog-201409/p/6801384.html
Copyright © 2020-2023  润新知