Nginx负载均衡health_check分析

Nginx负载均衡health_check分析

在Nginx负载均衡中，我们很难保证说每一台应用服务器都能一直正常的运行下去。但是我们可以通过设置Nginx来检测这些应用服务器，检测这些服务器当中不能访问的。

Nginx的检测方式分为两种，一种是被动监测，另一种是主动监测。下面我们分别看一下这两种方式。

被动监测

当Nginx认为一台应用服务器不能被访问的时候，它会暂时停止向这台应用上面分发请求。直到Nginx认为该应用服务器可以再次被访问的时候才会再向这台应用服务器上面分发请求。
要实现对应用服务器的监测，需要通过两个参数来帮助。

fail_timeout——该参数表示停止分发请求至该应用服务器的时间。也就是说，如果Nginx认为一台应用服务器不能被访问了，则Nginx就会停止向这台应用服务器上分发请求。那需要多长时间Nginx才会认为该服务器可以被访问从而向其分发请求呢。这就需要通过该参数来设置这个时间了。

max_fails——设置访问失败的最大次数。当Nginx向一台服务器分发请求，如果失败的次数达到该参数设置的数量，则Nginx认为该应用服务器不能访问。在接下来的请求就不会再发给该应用服务器。直到达到fail_timeout设置的时间才会再次向这台应用分发请求。

例一

http {
    upstream onmpw {
        server 192.168.144.128;
        server 192.168.144.132 max_fails=3 fail_timeout=30s;
        server 192.168.144.131 max_fails=2;
    }
    server {
        listen 80;
        location / {
            proxy_pass http://onmpw;
        }
    }
}

对于fail_timeout和max_fails的默认值分别为10s和1次。也就是说，当Nginx向一台应用服务器发送请求，如果失败则认为该应用服务器不可访问。接下来的10s中请求不再分发给该应用服务器。直到10s以后会再次将请求分发给该应用服务器。

对于例一，我们看到对于132应用，当请求失败次数达到3次。Nginx会在30s内不再向该应用分发请求。直到30s以后会再次分发新的请求到该应用服务器上。对于131应用，当请求次数达到2次，Nginx就会在10s内（因为没有设置fail_timeout，所以默认为10s）不再向这台应用发送请求。

这种方式需要我们在每台应用服务器对应的信息后面设置，所以称其为被动监测。

主动监测

由Nginx定期的向每台应用服务器发送特殊的请求，来监测应用服务器是否可以正常访问。这种方式称为主动监测。

为了实现主动监测这种方式，我们需要在Nginx负载均衡的配置文件中加入health_check指令。除此之外，我们还需要在设置应用服务器信息的组里加入zone指令。

例二

http {
upstream onmpw {
           zone onmpw 64k;
        server 192.168.144.128;
        server 192.168.144.132;
        server 192.168.144.131;
    }
    server {
        listen 80;
        location / {
            proxy_pass http://onmpw;
                           health_check;
        }
    }
}

在这里我们设置了一组应用服务器。通过一个单一的location，将所有的请求都分发到这组应用服务器上。在这种情况下，每隔5s Nginx Plus就会向每一台应用服务器发送’/’请求。任何一台应用服务器连接错误或者响应超时亦或者是被代理的服务器响应了一个状态码2xx或者是3xx，health_check机制就会认为是失败的。对于任何一台应用服务器，如果health_check失败，则就会被认为是不稳定的。那么Nginx Plus就不再向这台应用服务器分发访问请求。

zone指令定义了一块儿内存空间。这块儿空间存储在各个工作进程中共享的运行环境的状态和应用服务器组的配置信息。这块儿空间应该根据实际情况尽量申请的大一些，要保证能存下这些信息。

下面我们再看这样的一个例子

例三

location / {
    proxy_pass http://onmpw;
    health_check interval=10 fails=3 passes=2;
}

在上面的例三中，interval=10表示两次进行health_check的间隔为10s，如果不设置默认两次的间隔是5s。fails=3表示一台应用服务器如果请求失败次数达到3次，则该应用服务器被认为不能访问。最后是passes=2表示，被认定为不能访问的服务器需要再次进行两次health_check 以后才会再次被认为是可以正常访问的。

在health_check中，我们可以指定请求的url。

例四

location / {
    proxy_pass http://onmpw;
    health_check uri=/some/path;
}

对于onmpw组中的第一台应用服务器128来说，一次health check请求的url是http://192.168.144.128/some/path。

上面两种监测方式是普遍被使用的，希望本文对大家有所帮助。
相关阅读:
一起谈.NET技术，.Net Discovery系列之深入理解平台机制与性能影响(下) 狼人:
一起谈.NET技术，Silverlight 2.5D RPG游戏技巧与特效处理：（十二）魔法系统狼人:
一起谈.NET技术，.Net Discovery系列之深入理解平台机制与性能影响 (中) 狼人:
一起谈.NET技术，再次分享一个多选文件上传方案狼人:
一起谈.NET技术，Silverlight 2.5D RPG游戏技巧与特效处理：（十一）AI系统狼人:
一起谈.NET技术，.NET中的异步编程 IO完成端口以及FileStream.BeginRead 狼人:
一起谈.NET技术，C#中标准Dispose模式的实现狼人:
一起谈.NET技术，DotNet并行计算的使用误区狼人:
一起谈.NET技术，.NET中的委托狼人:
一起谈.NET技术，ASP.NET MVC3 基础教程 – Web Pages 1.0 狼人:
原文地址：https://www.cnblogs.com/larry-luo/p/10620263.html