Prometheus监控系统的从无到有

Prometheus监控系统的从无到有

Prometheus是什么

Prometheus（普罗米修斯）是一个最初在SoundCloud上构建的监控系统。自2012年成为社区开源项目，

拥有非常活跃的开发人员和用户社区。为强调开源及独立维护，Prometheus于2016年加入云原生云计算

基金会（CNCF），成为继Kubernetes之后的第二个托管项目。

https://prometheus.io

https://github.com/prometheus

Prometheus特点：

• 多维数据模型：由度量名称和键值对标识的时间序列数据

• PromSQL：一种灵活的查询语言，可以利用多维数据完成复杂的查询

• 不依赖分布式存储，单个服务器节点可直接工作

• 基于HTTP的pull方式采集时间序列数据

• 推送时间序列数据通过PushGateway组件支持

• 通过服务发现或静态配置发现目标

• 多种图形模式及仪表盘支持（grafana）

Prometheus组成及架构

• Prometheus Server：收集指标和存储时间序列数据，并提供查询接口

• ClientLibrary：客户端库

• Push Gateway：短期存储指标数据。主要用于临时性的任务

• Exporters：采集已有的第三方服务监控指标并暴露metrics

• Alertmanager：告警

• Web UI：简单的Web控制台

1、首先，核心是一个Prometheus Server服务端，然后它默认会定时的通过http的方式去拉取客户端的数据，或者对于一些短期的任务可以通过Push Gateway组件由客户端推送到Push Gateway，然后server端去拉取Push Gateway的存储的数据。

2、再接收到数据后，普罗米会把数据存储在TSDB（时间序列数据库）中，不需要依赖于其他存储，当然，在大规模的应用中，其本身的存储是远远不够的，所以我们需要配置存储路径来存储数据。--storage.tsdb.path=/data/prometheus/prometheus/data/ 在启动普罗米时用这个参数配置存储路径

3、对于普罗米的服务发现功能（service discovery），普罗米内置了很多配置可以帮助我们更好的去监控我们的客户端，比如说file_sd，可以通过文件去发现主机，并打上各种标签便于管理和区分。目前，普罗米对于kubernetes是市面上最为兼容的监控器，我们可以通过简单地配置就可以管理上kubernetes里的所有主机，这也普罗米兴起的一个重要原因。

4、普罗米内置了很多http api，其他产品都可以通过api来获取普罗米的数据，比如说grafana通过PromSQL去获取数据以便展示。

5、普罗米在获取了数据后，我们需要有个机器人能帮助我们一直监控这些数据的健康状态，那么就需要一个报警组件altermanager，通过2遍的配置对接后，alertmanager对数据进行监控，并可以通过邮件、微信等方式发送告警。

监控系统的搭建

服务器配置：

系统：centos 7.x

Cpu：4核

内存：16G

主目录：/data/prometheus/

prometheus

1、安装

二进制部署：https://prometheus.io/docs/prometheus/latest/getting_started/

Docker部署：https://prometheus.io/docs/prometheus/latest/installation/

访问Web：http://localhost:9090

cat prometheus.yml

scrape_interval：收集数据间隔

evaluation_interval：评估规则间隔

alerting：配置连接alertmanager

rule_files：监控规则文件的目录

scrape_configs：定义监控的项目及配置

file_sd_config：基于文件发现规则

2、配置后台服务

vim /usr/lib/systemd/system/prometheus.service

########################################

[Unit]

Description=Prometheus server daemon

[Service]

ExecStart=/data/prometheus/prometheus/prometheus --config.file=/data/prometheus/prometheus/prometheus.yml --storage.tsdb.path=/data/prometheus/prometheus/data/

Restart=on-failure

[Install]

WantedBy=multi-user.target

###########################################

systemctl daemon-reload

systemctl start Prometheus

安装grafana展示数据

1、安装

https://grafana.com/grafana/download

2、添加data sources

3、添加或创建展示页

这里我用的是别人创建好的页面（id：8919），如果不满意，我们可以把这个导出json格式，然后修改再导进去生成新的展示页

3、用PromSQL创建我们想要展示的数据

node_online_keepalive{instance=~"$node"}

安装alertmanager

1、安装

地址1：https://prometheus.io/download/

地址2：https://github.com/prometheus/alertmanager/releases

2、配置后台服务，与普罗米一样，看前面

/data/prometheus/alertmanager/alertmanager --config.file=/data/prometheus/alertmanager/alertmanager.yml

3、配置文件

Alertermanager配置路由和接收者

Prometheus配置告警规则

4、配置普罗米与alertmanager通信

普罗米定义监控规则，把告警传给alertmanager，alertmanager根据路由选择发送方式

5、告警状态

• Inactive：这里什么都没有发生。

• Pending：已触发阈值，但未满足告警持续时间

• Firing：已触发阈值且满足告警持续时间。警报发送给接受者

6、告警收敛（分组，抑制，静默）

分组（group）：将类似性质的警报分类为单个通知

抑制（Inhibition）：当警报发出后，停止重复发送由此警报引发的其他警报

静默（Silences）：是一种简单的特定时间静音提醒的机制

客户端数据的采集方案

需求：由于项目需求，我们往往需要采集exporter不能采集到的数据，那么用go在短时间内定制exporter和后期交接的维护都会存在时间成本，所有我们可以用通过node_exporter --collector.textfile.directory参数，用shell或者python来收集数据。

流程：

1、所有客户端都安装一个node_exporter，我们通过node的接口让普罗米来拉数据

/data/prometheus/node_exporter/node_exporter --collector.textfile.directory=/data/prometheus/node_exporter/textfile_collector --web.listen-address=:9999

2、新建数据采集脚本（不能带有exit等退出的语句，原因后期讲到）

cd /data/prometheus/node_exporter/textfile_scpripts/

vim node_online_keepalive

3、创建调度

vim /data/prometheus/node_exporter/cron.d/cron_node_exporter_textfile_common

#如果搭服后调度没运行了，那么把下面几步都加在搭服脚本中吧

chown root:root cron_node_exporter_textfile_common chmod 644 cron_node_exporter_textfile_common

ln -s /data/prometheus/node_exporter/cron.d/cron_node_exporter_textfile_common /etc/cron.d

systemctl restart crond

4、创建runner脚本批量运行采集脚本

cat /data/prometheus/node_exporter/textfile_scpripts/runner

5、查看有无收集到数据

cat /data/prometheus/node_exporter/textfile_collector/node_online_keepalive.prom

web界面查看metrics
相关阅读:
转贴：C语言链表基本操作
 硬盘上的一些算法小题目||and今天看了下林锐的书以及gdb调试及一些变成算法小题目
 MFC入门 002 滚动条Scorllbar 数字控制框 Spin 进度条 Progress
002 Windows数据类型字符集
 001 Windows 简介
 MFC入门 001 Edit&Button&List&ComboBox
iPads和iPones的Media Queries
响应式网页设计
 chrome developer tool 调试技巧
 返回一个整型数组中最大子数组的和（02）
原文地址：https://www.cnblogs.com/xysr-tom/p/13389650.html

Prometheus监控系统的从无到有

Prometheus是什么

Prometheus组成及架构

监控系统的搭建

prometheus

1、安装

2、配置后台服务

安装grafana展示数据

1、安装

2、添加data sources

3、添加或创建展示页

安装alertmanager

1、安装

2、配置后台服务，与普罗米一样，看前面

3、配置文件

Alertermanager配置路由和接收者

Prometheus配置告警规则

4、配置普罗米与alertmanager通信

5、告警状态

6、告警收敛（分组，抑制，静默）

客户端数据的采集方案

流程：