• Dell服务器安装vGPU


    环境信息

    服务器型号

    系统版本

    驱动版本

    Dell R740xd

    ESXi6.5u3 15177306

    NVIDIA-VMware-440.87-1OEM.650.0.0.4598673.x86

    Dell R940xa

    ESXi6.5u3 15177306

    NVIDIA-VMware-440.87-1OEM.650.0.0.4598673.x86

    GPU型号

    Nvidia Tesla V100

     

    备注:驱动版本和系统版本一定要对应,系统版本必须是ESXi6.5u3或以上,建议使用6.7版本

    一、ESXi主机配置

    1ESXi主机安装GPU驱动

    ESXi主机开启ssh,用winscp软件将驱动传到主机下,迁移或者关闭主机上所有虚拟机,然后将主机置入维护模式,并安装驱动

     安装驱动,返回值successfully则表示安装成

     卸载驱动用如下命令

     查看驱动是否安装成功

    2、修改BIOS设置

    Memory Mapped I/O Base 设置为 512 GB(默认为 56 TB)或 12 TB(如果服务器的 RAM 大于 512 GB):重新引导系统后生效

     

    此问题在 R740 用户硬件手册中介绍如下:

    Memory Mapped I/O above 4 GB - 启用或禁用要求大量内存的 PCIe 设备支持。仅 64 位操作系统可启用此选项。此选项默认为已启用。

    Memory Mapped I/O above Base - 当设置为 12 TB 时,系统将 MMIO 库映射到 12 TB。需要 44 PCIe 寻址的操作系统可启用此选项。
    当设置为 512 GB 时,系统将 MMIO 库映射到 512 GB,并将最大内存支持减少到低于 512 GB。仅针对 4 GPU DGMA 问题启用此选项。此选项默认设置为 56 TB

    注意:设置此选项会将内存限制为512GB(如果已设置为512GB

    3、查看GPU信息

    使用命令nvidia-smi查看是否显示GPU信息,如下:

    4vCenter设置图形共享模式

    在确认驱动状态没问题以后,我们登陆vCenter,定位到主机-配置-图形,编辑主机图形设置,可以看到默认是共享模式,也就是vsga,我们需要切换到“直接共享“才能使用vGPU

     

    2GPU分配策略,在有多个GPU的时候生效。

    默认最佳性能模式,会在所有可能的GPU上去运行虚拟机,即VM1运行在GPU1VM2运行在GPU2,以此类推,尽可能平均的分布虚拟机,不会让GPU闲着。

    GPU整合模式,会在一个GPU核心上运行先启动的虚拟机,直到当前GPU没有资源才会去使用下一个GPU核心,这个模式多用在同一台服务器上运行多个vGPU profile的情况下。

     

     除了主机的图形选项,针对每个GPU也都可以单独设置共享模式,第一次使用需要在这里再切换一下,主要是需要重启xorg服务来改变配置,不同vSphere版本界面可能不能,部分vSphere 6.5早期版本需要手动重启xorg服务

     二、虚拟机配置vGPU

    版本兼容性列表

    1windows配置vGPU

    系统版本:win2008R2win2012R2win2016R2win2012R2官网没有企业版,所以只能安装标准版)

    系统安装完成后关闭防火墙,打开远程桌面。

    注:虚拟机添加vGPU安装驱动后,虚拟桌面连接失效,必须开启远程桌面连接或删除共享pci直通

    安装驱动后Nvidia控制面板打不开或者报错,解决办法:安装驱动精灵,升级显卡驱动后重启。

    授权vGPU,打开Nvidia控制面板,输入License Server IP以及固定的端口号7070 ,重启后查看授权服务器是否生效

    2Centos7.8配置vGPU

    2.1、关闭防火墙和selinux

    修改/etc/selinux/config文件

    SELINUX=disabled

    2.2、查看最新内核版本并更新

     当前版本为3.10.0-1127.el7,最新版为以下3.10.0-1127.13.1.el7

     安装以下更新包,重启后查看是否生效

     

    检测NVIDIA驱动是否存在

     

    2.3、禁用Nouveau驱动

    查看nouveau是否运行,如有输出结果即为运行

    修改/lib/modprobe.d/dist-blacklist.conf 文件

    blacklist nvidiafb注释,并添加以下两行内容

    blacklist nouveau

    options  nouveau modeset=0

     

    2.4重建 initramfs image

    # mv /boot/initramfs-$(uname -r).img  /boot/initramfs-$(uname -r).img.bak

    # dracut /boot/initramfs-$(uname -r).img $(uname -r)

     安装gccgcc-c++

    2.5、安装NVIDIA驱动

    添加可执行权限

    # chmod +x NVIDIA-Linux-x86_64-440.87-grid.run

    退出X-server图形,进入文本模式

    # init 3

    进入驱动目录安装驱动程序

    默认Yes

     

    Install and overwrite exis

     

     

     结束安装后重启虚拟机

    2.6、修改授权配置文件

    进入/etc/nvidia目录,查看是否有gridd.conf文件

    如果没有,复制gridd.conf.template此文件,然后命名gridd.conf,在修改此文件内容

     

    添加vGPU授权服务器IP和端口号

     

    2.7vGPU授权

    重启nvidia服务,登录授权服务器查看是否已有授权

    # systemctl restart nvidia-gridd.service

     登陆license服务器查看是否有授权

    http://10.86.192.8:8080/licserver

     关于单个VM使用多个vGPUESXi版本必须是6.7u3及以上,首先ESXi需要升级到6.7U3的版本才支持,其次虚拟机兼容性也需要修改为vSphere 6.7 Update 2或之后的版本,第三只有多个Q或者C系列的vGPU能添加到单个虚拟机上,而且也会有最低显存设置。

     

     

     

  • 相关阅读:
    【SSM】Eclipse使用Maven创建Web项目+整合SSM框架(转自:http://www.cnblogs.com/DoubleEggs/p/6243216.html)
    odoo Wkhtmltopdf failed (error code: -11). Memory limit too low or maximum file number of subprocess reached. Message : b''
    odoo 补货规则,当某个位置的产品匹配到多个规则时优先使用序列号最小的规则
    odoo 销售订单确认怎么触发的发货规则
    linux 内核升级
    linux 运维工具之jumpserver
    odoo 关于odoo 的批量拣货
    JIT
    sping+redis实现消息队列的乱码问题
    JVM参数设置
  • 原文地址:https://www.cnblogs.com/xiaoren112/p/14060599.html
Copyright © 2020-2023  润新知