• 从SpringBoot构建十万博文聊聊Tomcat集群监控


    前言

    在十万博文终极架构中,我们使用了Tomcat集群,但这并不能保证系统不会出问题,为了保证系统的稳定运行,我们还需要对 Tomcat 进行有效的运维监控手段,不至于问题出现或者许久一段时间才知道。凌晨一点这个锅可谁都不想背,为此基于目前的情况搭建了以下这么一套监控预警系统。

    架构图

    相关软件

    • Nginx:代理访问 Grafana
    • Grafana: 可视化面板(Dashboard),有着非常漂亮的图表和布局展示
    • Influxdb:开源的时间序列数据库,适用于记录度量,事件及执行分析
    • Telegraf:收集系统和服务的统计数据
    • Docker:开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中

    监控架构

    GTI监控预警系统,架构流程说明:

    • 第一步:数据采集,Telegraf 采集 Tomcat 相关参数数据
    • 第二步:数据存储,Influxdb 存储 Telegraf 采集的数据
    • 第三步:数据可视化,Grafana 配置 Tomcat 监控面板
    • 第四步:预警通知,配置钉钉、邮件等预警

    安装配置

    这里只对Grafana、Telegraf、Influxdb、Tomcat 做相应的安装说明,Nginx 以及 Docker 请自行查阅资料。

    Grafana

    Grafana只是一个接入数据源的可视化面板,这里为了方便,我们选择Docker安装。

    mkdir grafana
    ID=$(id -u)
    docker run -d --user $ID --name=grafana  --volume "$PWD/grafana:/var/lib/grafana" -p 3000:3000 grafana/grafana
    # 如果生产环境配置,最好提前配置好域名
    docker run -d --user $ID --name=grafana --volume "$PWD/data:/var/lib/grafana" -p 3000:3000 -e "GF_SERVER_ROOT_URL=http://monitor.52itstyle.vip" grafana/grafana
    
    

    执行成功以后,执行以下命令:

    docker ps
    

    如果出现grafana运行容器说明安装成功。

    查看容器相关参数:

    docker inspect docker.io/grafana/grafana
    

    进入:

    docker exec -it grafana /bin/sh
    

    Grafana的默认配置文件grafana.ini位于容器中的/etc/grafana,这个文件是映射不出来的。不过可以先创建并运行一个容器,拷贝出来重新创建运行容器。

    参数说明(这里截取了部分重点参数):

    ##################### Grafana 几个重要的参数(参考一下) #####################
    [paths]
    # 存放临时文件、session以及sqlite3数据库的目录
    ;data = /var/lib/grafana
    
    # 存放日志的地方
    ;logs = /var/log/grafana
    
    # 存放相关插件的地方
    ;plugins = /var/lib/grafana/plugins
    
    #################################### Server ####################################
    [server]
    # 默认协议 支持(http, https, socket)
    ;protocol = http
    
    # 默认端口
    ;http_port = 3000
    
    # 这里配置访问地址,如果使用了反向代理请配置域名,发送告警通知的时候作为访问地址
    root_url = http://grafana.52itstyle.vip
    
    #################################### Database ####################################
    [database]
    
    # 默认使用的数据库sqlite3,位于/var/lib/grafana目录下面
    ;path = grafana.db
    
    #################################### Session ####################################
    [session]
    # session 存储方式,默认是file即可  Either "memory", "file", "redis", "mysql", "postgres", default is "file"
    ;provider = file
    
    #################################### SMTP / Emailing ##########################
    [smtp]
    # 邮件服务器配置,自行修改配置
    enabled = true
    host = smtp.mxhichina.com:465
    user = admin@52itstyle.vip
    # If the password contains # or ; you have to wrap it with trippel quotes. Ex """#password;"""
    password = 123456
    ;cert_file =
    ;key_file =
    ;skip_verify = false
    from_address = admin@52itstyle.vip
    # 这里不要设置中文,否则会发送失败
    from_name = Grafana
    

    Influxdb

    创建并运行容器

    docker run -d -p 8083:8083 -p 8086:8086 -e ADMIN_USER="root" -e INFLUXDB_INIT_PWD="root" -e PRE_CREATE_DB="telegraf" --name influxdb tutum/influxdb:latest
    

    各个参数含义:

    -d:容器在后台运行
    
    --name:容器名称
    
    -e:指定环境变量,容器中可以使用该环境变量 
    
    -p:将容器内端口映射到宿主机端口,格式为 宿主机端口:容器内端口;8083是influxdb的web管理工具端口,8086是influxdb的HTTP API端口
    

    执行成功以后,执行以下命令:

    docker ps
    

    如果出现influxdb运行容器说明安装成功。

    访问地址:http://ip:8083/

    Telegraf

    docker pull telegraf
    

    把telegraf相关配置拷贝到宿机

    docker cp telegraf:/etc/telegraf/telegraf.conf ./telegraf
    

    采集Tomcat数据:

    如果想监控多个Tomcat,这里配置多个[[inputs.tomcat]]即可,但是一定要配置不同的tags标识。

    [[inputs.tomcat]]
    url = "http://192.168.1.190:8080/manager/status/all?XML=true"
    # Tomcat访问账号密码 必须配置
    username = "tomcat"
    password = "tomcat"
    timeout = "5s"
    # 标识Tomcat名称、根据实际项目部署情况而定
    [inputs.tomcat.tags]
    host = "blog"
    
    [[inputs.tomcat]]
    url = "http://192.168.1.190:8081/manager/status/all?XML=true"
    # Tomcat访问账号密码 必须配置
    username = "tomcat"
    password = "tomcat"
    timeout = "5s"
    # 标识Tomcat名称、根据实际项目部署情况而定
    [inputs.tomcat.tags]
    host = "bbs"
    

    采集数据到influxdb:

    [[outputs.influxdb]]
          # urls = ["udp://localhost:8089"] # UDP endpoint example
          urls = ["http://localhost:8086"] # required,这个url改成自己host
          ## The target database for metrics (telegraf will create it if not exists).
          database = "telegraf" # 这个会在influx库创建一个库
    

    把配置文件复制到容器:

    docker cp telegraf.conf telegraf:/etc/telegraf/telegraf.conf
    

    重启telegraf服务:

    docker restart docker
    

    Tomcat

    由于telegraf收集Tomcat相关数据需要配置访问权限,这里我们选择Tomcat7做配置说明。

    修改位于conf下的tomcat-users.xml文件:

    <tomcat-users>
    <user username="tomcat" password="tomcat" roles="manager-gui,manager-script,manager-jmx,manager-status"/>
    </tomcat-users>
    

    重启Tomcat容器,访问以下地址:

    http://ip:8080/manager/status/all?XML=true
    

    如果出现以上界面,说明配置成功。

    监控配置

    依次启动Tomcat、Influxdb、Telegraf、Grafana完成后,我们进入Grafana后台管理进行相关配置。

    配置Influxdb数据源:

    选择 datasources/Add datasource

    输入正确的HTTP地址以及数据库账号密码,点击保存,如果出现绿色提示框,说明配置成功。

    配置Tomcat仪表盘:

    选择 dashboard/import

    这里有三种方式导入面板:

    • 选择输入官方面板ID或者URL
    • 直接复制黏贴JSON格式代码
    • 导入第三方面板JSON格式文件

    这里我们导入事先自己定制保存的Tomcat监控面板,最后点击导入保存。

    如果不出意外,将会是下图的样子。

    告警配置

    前期做了这么多,我们的最终目的是为了提前预警通知,在系统即将发生灾难之前作出相应的准备调整。这里我们以Tomcat的线程数量阈值作为预警通知。

    点击线程面板-选择编辑:

    配置相关参数:

    1、Alert名称,可以自定义。
    2、执行的频率,这里我选择每60s检测一次。
    3、判断标准,默认是avg,这里是下拉框,自己按需求选择。
    4、query(A,5m,now),字母A代表选择的metrics中设置的sql,也可以选择其它在metrics中设置的,但这里是单选。5m代表从现在起往之前的五分钟,即5m之前的那个点为时间的起始点,now为时间的结束点,此外这里可以自己手动输入时间。
    5、设置的预警临界点,这里手动输入,和6是同样功能,6可以手动移动,两种操作是等同的。

    配置预警信息以及通知方式:

    这里我们选择的是邮件预警通知,但是要提前进行配置,详见一开始grafana.ini中 SMTP / Emailing 相关参数配置。

    点击发送测试,提示成功会发送一份告警Demo到指定邮箱:

    总结

    讲道理,这一套东西还是挺强大的。特别是对于中小公司来说,各种成熟的开源组间一整合完美搭建出一套监控系统,时间成本、人力成本、技术成本可以降到最低。

    参考文档

    大家安装过程中,版本可能不尽相同,相关页面展示会不一致,但是不会影响最终功能呈现。

    http://docs.grafana.org/

    https://docs.influxdata.com/influxdb/

    https://docs.influxdata.com/telegraf/

    https://blog.52itstyle.vip/archives/2014/

    https://blog.52itstyle.vip/archives/2029/

    https://github.com/influxdata/telegraf/pull/3277

  • 相关阅读:
    编译gcc报错make[3]: Leaving directory `/usr/local/src/gcc-7.4.0/build/gcc' make[2]: *** [all-stage1-gcc] Error 2 处理
    ERROR 1176 (42000): Key 'XXX' doesn't exist in table 'XXX'报错处理
    /lib64/libc.so.6: version `GLIBC_2.18' not found报错解决
    Centos7上pkg-config的安装
    ERROR: Error in Log_event::read_log_event(): 'Found invalid event in binary log', data_len: 31, event_type: 35报错处理
    MySQL5.7主从复制slave报Last_Errno: 1146错误解决
    详述 hosts 文件的作用及修改 hosts 文件的方法
    Java Decompiler(Java反编译工具)
    使用Charles代理工具导致电脑无法正常访问网站(您的连接不是私密连接)
    阿里云服务器Svn-Server无法连接,阿里云服务器SVNServer配置
  • 原文地址:https://www.cnblogs.com/smallSevens/p/11487757.html
Copyright © 2020-2023  润新知