• high_swapspace_useage


    high_swapspace_useage

    high_swapspace_useage

    1 简介

    Swap分区在系统的物理内存不够用的时候,把物理内存中的一部分空间释放出来,以供当前运行的程序使用。而这些被释放出来的内存,会先放到swap中,等到那些程序要运行时,再从Swap分区中恢复保存的数据到内存中。 以下是几种引发swap被占用的可能因素。

    2 分析

    2.1 相关参数

    在Linux内核参数中有一个vm.swappiness ,它决定了系统在物理内存使用达到什么值(百分比)时开始使用swap.系统默认此参数的值为60. 对应的系统文件是 /proc/sys/vm/swappiness.

    cat /proc/sys/vm/swappiness
    1
    

    2.2 设置参数

    • 临时调整

      echo 10 > /proc/sys/vm/swappiness
      或者
      sysctl vm.swappiness=10
      
    • 开机启动即调整

      将此参数值配置到内核参数文件 /etc/sysctl.conf 中即可

      cat /etc/sysctl.conf|grep swappiness
      vm.swappiness = 1
      

    2.3 NUMA机制

    2.3.1 numa作用

    现在的机器上都是有多个CPU和多个内存块的。以前我们都是将内存块看成是一大块内存,所有CPU到这个共享内存的访问消息是一样的。这就是之前普遍使用的SMP模型。但是随着处理器的增加,共享内存可能会导致内存访问冲突越来越厉害,且如果内存访问达到瓶颈的时候,性能就不能随之增加。NUMA(Non-Uniform Memory Access)就是这样的环境下引入的一个模型。比如一台机器是有2个处理器,有4个内存块。我们将1个处理器和两个内存块合起来,称为一个NUMA node,这样这个机器就会有两个NUMA node。在物理分布上,NUMA node的处理器和内存块的物理距离更小,因此访问也更快。比如这台机器会分左右两个处理器(cpu1, cpu2),在每个处理器两边放两个内存块(memory1.1, memory1.2, memory2.1,memory2.2),这样NUMA node1的cpu1访问memory1.1和memory1.2就比访问memory2.1和memory2.2更快。所以使用NUMA的模式如果能尽量保证本node内的CPU只访问本node内的内存块,那这样的效率就是最高的。

    但是numa也是有限制的,如果一个进程限制它只能使用自己的numa节点的内存,那么当自身numa node内存使用光之后,就不会去使用其他numa node的内存了,会开始使用swap,甚至更糟的情况,机器没有设置swap的时候,可能会直接死机!所以你可以使用numactl –interleave=all来取消numa node的限制。

    如果你的程序是会占用大规模内存的,你大多应该选择关闭numa node的限制(或从硬件关闭numa)。因为这个时候你的程序很有几率会碰到numa陷阱。

    另外,如果你的程序并不占用大内存,而是要求更快的程序运行时间。你大多应该选择限制只访问本numa node的方法来进行处理。

    2.3.2 numa与性能

    在os层numa关闭时,打开bios层的numa会影响性能,QPS会下降15-30%;

    在bios层面numa关闭时,无论os层面的numa是否打开,都不会影响性能。

    安装numactl yum install numactl -y. 另外两个常用命令:

    • numastat 等同于 cat /sys/devices/system/node/node0/numastat ,在/sys/devices/system/node/文件夹中记录系统中的所有内存节点的相关详细信息。
    • numactl –hardware 列举系统上的NUMA节点
    • numactl –show 查看绑定信息

    2.3.3 判断是否启用NUMA

    Redhat或者Centos系统中可以通过命令判断bios层是否开启numa, grep -i numa /var/log/dmesg.

    或者直接执行numastat 查看结果。

    如果输出结果为: No NUMA configuration found

    说明numa为disable,如果不是上面内容说明numa为enable,例如显示:NUMA: Using 30 for the hash shift.

    2.4 进程异常

    有时候,并不是内存不够用。而是由于程序或者进程异常,过多的占用了swap空间。如果有个脚本可以查看所有进程占用的swap空间就可以快速排查异常进程了。 下面是脚本内容:

    printf "%-20s	%10s	%-s
    " "PID" "Swap" "Proc_Name"
    echo -e '------------------	------------	---------------------------'
    
    for pid in `ls -l /proc | grep ^d | awk '{ print $9 }'| grep -v [^0-9]|grep -v 1$`
    do
        if [ -f /proc/"$pid"/smaps ]; then
    	 swap=$(grep Swap /proc/$pid/smaps | gawk '{ sum+=$2;} END{ print sum }')
    	 swap=${swap:=0}  # if swap's values is null then set swap=0
        fi
        proc_name=$(ps aux | grep -w "$pid" | grep -v grep | awk '{ for(i=11;i<=NF;i++){ printf("%s ",$i); }}')
        if [ "$swap" -gt 0 ];then
    	echo -e "$pid	${swap}	$proc_name"
        fi
    
    done | sort -k2 -n | gawk -F'	' '{
     pid[NR]=$1;
     size[NR]=$2;
     name[NR]=$3;
    }
    END{
     for(id=1;id<=length(pid);id++)
     {
         if(size[id]<1024)
             printf("%-10s	%15sKB	%s
    ",pid[id],size[id],name[id]);
         else if(size[id]<1048576)
             printf("%-10s	%15.2fMB	%s
    ",pid[id],size[id]/1024,name[id]);
         else
             printf("%-10s	%15.2fGB	%s
    ",pid[id],size[id]/1048576,name[id]);
     }
    }'
    
    

    当找到异常进程后,可以kill 掉进程,或者重启进程,以释放swap空间。

    3 解决方法

    综上,当你遇到swap空间占用异常的情况,首先查看物理内存是否真的不够用了。如果物理内存用光,占用swap空间是很正常的。

    如果物理内存仍有较多的空间未利用,而占用了过多的swap,那么很有可能是Numa 机制引起的。需要重启进程,指定进程使用全局内存。

    如果以上两种原因都不是。就很有可能是进程异常。通过脚本查出占用进程过多的进程,然后重启进程或者kill掉。

    Author: halberd.lee

    Created: 2020-05-18 Mon 15:41

    Validate

  • 相关阅读:
    使用 RMAN 同步数据库
    关于MongoDB分布式高可用集群实现
    Oracle排错总结
    Oracle中Restore和Recovery的区别
    linux下防火墙iptables原理及使用
    RHEL6.5上升级OpenSSH7.4p1
    awk中next以及getline用法示例
    Linux下Redis的安装和部署
    Mongodb集群搭建的三种方式
    天地图服务地址
  • 原文地址:https://www.cnblogs.com/halberd-lee/p/12906086.html
Copyright © 2020-2023  润新知