pushgetway(push上传metric数据)
Pushgateway简介
Pushgateway是prometheus的一个组件,prometheus server默认是通过exporter主动获取数据(默认采取pull拉取数据),pushgateway则是通过被动方式推送数据到prometheus server,用户可以写一些自定义的监控脚本把需要监控的数据发送给pushgateway, 然后pushgateway再把数据发送给Prometheus server
Pushgateway优点:
Prometheus 默认采用定时pull 模式拉取targets数据,但是如果不在一个子网或者防火墙,prometheus就拉取不到targets数据,所以可以采用各个target往pushgateway上push数据,然后prometheus去pushgateway上定时pull数据
在监控业务数据的时候,需要将不同数据汇总, 汇总之后的数据可以由pushgateway统一收集,然后由 Prometheus 统一拉取。
pushgateway缺点:
Prometheus拉取状态只针对 pushgateway, 不能对每个节点都有效;
Pushgateway出现问题,整个采集到的数据都会出现问题
监控下线,prometheus还会拉取到旧的监控数据,需要手动清理 pushgateway不要的数据。
安装pushgateway
[root@xianchaonode1 ~]# docker load -i pushgateway.tar.gz [root@xianchaonode1 ~]# docker run -d --name pushgateway -p 9091:9091 prom/pushgateway 在浏览器访问192.168.40.181:9091出现如下ui界面 可以使用k8s编排
修改prometheus配置文件
修改prometheus-alertmanager-cfg.yaml文件,在k8s-master节点操作 添加如下job - job_name: 'pushgateway' scrape_interval: 5s static_configs: - targets: ['192.168.40.181:9091'] honor_labels: true kubectl apply -f prometheus-alertmanager-cfg.yaml kubectl delete -f prometheus-alertmanager-deploy.yaml kubectl apply -f prometheus-alertmanager-deploy.yaml
在prometheus的targets列表可以看到pushgateway
推送指定的数据格式到pushgateway
向 {job="test_job"} 添加单条数据: echo " metric 3.6" | curl --data-binary @- http://192.168.40.181:9091/metrics/job/test_job 注:--data-binary 表示发送二进制数据,注意:它是使用POST方式发送的! 添加复杂数据 cat <<EOF | curl --data-binary @- http://192.168.40.181:9091/metrics/job/test_job/instance/test_instance #TYPE node_memory_usage gauge node_memory_usage 36 # TYPE memory_total gauge node_memory_total 36000 EOF 删除某个组下某个实例的所有数据 curl -X DELETE http://192.168.40.181:9091/metrics/job/test_job/instance/test_instance 删除某个组下的所有数据: curl -X DELETE http://192.168.40.181:9091/metrics/job/test_job
使用脚本上传数据
把数据上报到pushgateway 在被监控服务所在的机器配置数据上报,想要把192.168.40.181这个机器的内存数据上报到pushgateway,下面步骤需要在192.168.40.181操作 cat push.sh node_memory_usages=$(free -m | grep Mem | awk '{print $3/$2*100}') job_name="memory" instance_name="192.168.40.181" cat <<EOF | curl --data-binary @- http://192.168.40.181:9091/metrics/job/$job_name/instance/$instance_name #TYPE node_memory_usages gauge node_memory_usages $node_memory_usages EOF sh push.sh
打开pushgateway web ui界面,可看到如下:
打开prometheus ui界面,可看到如下node_memory_usages的metrics指标
###注意:从上面配置可以看到,我们上传到pushgateway中的数据有job也有instance,而prometheus配置pushgateway这个job_name中也有job和instance,这个job和instance是指pushgateway实例本身,添加 honor_labels: true 参数, 可以避免promethues的targets列表中的job_name是pushgateway的 job 、instance 和上报到pushgateway数据的job和instance冲突。
基于consul服务自动发现
简介:
Consul是分布式k/v数据库,是一个服务注册组件,其他服务都可以注册到consul上,prometheus基于consul的服务发现流程如下:
(1)在consul注册服务或注销服务(监控targets)
(2)Prometheus一直监视consul服务,当发现consul中符合要求的服务有新变化就会更新Prometheus监控对象
consul简介
Consul是一个分布式的,高可用的服务注册系统,由server端和client端组成,每个server和client都是consul的一个节点,consul客户端不保存数据,客户端将接收到的请求转发给响应的Server端。Server之间通过局域网或广域网通信实现数据一致性
部署consul集群
在master1、master2、node1三个节点部署consul master1是consul的server,master2是consul的client,node1是consul的client 1.下载consul二进制包,在各个节点操作 mkdir /opt/consul/data -p && cd /opt/consul wget https://releases.hashicorp.com/consul/1.7.1/consul_1.7.1_linux_amd64.zip unzip consul_1.7.1_linux_amd64.zip 注:在https://releases.hashicorp.com/consul处可下载各个版本的consul,1.7.1是最新版本 2.启动consul 在master1上: cd /opt/consul nohup ./consul agent -server -bootstrap -bind=192.168.124.16 -client=192.168.124.16 -data-dir=data -ui -node=192.168.124.16 & 这样就启动了master1上的consul 在master2上: cd /opt/consul nohup ./consul agent -bind=192.168.124.26 -client=192.168.124.26 -data-dir=data -node=192.168124.26 -join=192.168.124.16 & 在node1上: cd /opt/consul nohup ./consul agent -bind=192.168.124.56 -client=192.168.124.56 -data-dir=data -node=192.168.124.56 -join=192.168.124.16 &
各个节点都启动完之后
在浏览器访问http://192.168.124.16:8500/
可看到consul的管理界面
服务注册到consul
使用HTTP API 方式注册node-exporter服务注册到Consul,在master1上执行
curl -X PUT -d '{"id": "node-exporter","name": "node-exporter","address": "192.168.124.16","port":9100,"tags": ["node-exporter"],"checks": [{"http": "http://192.168.124.16:9100/","interval": "5s"}]}' http://192.168.124.16:8500/v1/agent/service/register 看到如下显示health checks都是正常,说明node-exporter已经成功注册到consul中了 http://192.168.124.16:8500/ui/dc1/services
http://192.168.124.16:8500/ui/dc1/services/node-exporter
这个步骤是移除,先不操作,把consul中注册的服务移除:
curl --request PUT http://192.168.124.16:8500/v1/agent/service/deregister/192.168.124.16
修改prometheus配置文件,变成基于consul的服务发现
在master1上操作 cd /data/prometheus cat prometheus.yaml scrape_configs: - job_name: consul honor_labels: true metrics_path: /metrics scheme: http consul_sd_configs: - server: 192.168.124.16:8500 services: [] relabel_configs: - source_labels: ['__meta_consul_tags'] target_label: 'product' - source_labels: ['__meta_consul_dc'] target_label: 'idc' - source_labels: ['__meta_consul_service'] regex: "consul" #匹配为"consul" 的service action: drop # 执行的动作 static_configs: 配置数据源 consul_sd_configs: 基于consul服务发现的配置 rebel_configs:重新标记 services: [] :这个表示匹配consul中所有的service docker restart prometheus
在prometheus web ui界面查看
prometheus配置consul服务发现的标签说明
- source_labels: ['__meta_consul_tags'] target_label: 'product' - source_labels: ['__meta_consul_dc'] target_label: 'idc' - source_labels: ['__meta_consul_service'] regex: "consul" #匹配为"consul" 的service action: drop # 执行的动作 参数解释如下: __meta_consul_tags:标记分隔符连接的目标的标记列表 __meta_consul_dc:目标的数据中心名称 __meta_consul_service:目标所属服务的名称 job':目标服务器的job __meta_consul_service_port:目标的服务端口