• Kubernetes(k8s)部署Promehteus(kubeprometheus&kubeprometheusstack)监控


    一、概述

    在1.8版本以后heapster由metrics-server替代;从k8s的v1.11版本开始已经全面转向以Prometheus为核心的新监控体系架构;kube-prometheus 中包含了 prometheus 监控所用到的所有组件,当然也包含 prometheus-operator。

    Helm中心仓库的PrometheusOperator Chart,在2020年9月已经不维护了,新的Chart在Prometheus Community的Repo中,叫 kube-prometheus-stack,使用时需要先添加该Repo。

    heapster-》metrics-server-》prometheus-operator -》kube-prometheus-》kube-prometheus-stack

    1)metrics-server简介

    metrics-server 通过kubelet(cAdvisor)获取监控数据,主要作用是为kube-scheduler,HPA等k8s核心组件,以及kubectl top命令和Dashboard等UI组件提供数据来源。

    【注意】如果要部署prometheus,就不用部署了metrics-server了,否则冲突,推荐只部署prometheus,所以这里也只讲prometheus的部署。

    2)Prometheus简介

    Prometheus是一个开源监控系统,它前身是SoundCloud的警告工具包。从2012年开始,许多公司和组织开始使用Prometheus。

    Prometheus的主要特征有:

    • 多维度数据模型
    • 灵活的查询语言
    • 不依赖分布式存储,单个服务器节点是自主的
    • 以HTTP方式,通过pull模型拉去时间序列数据
    • 也通过中间网关支持push模型
    • 通过服务发现或者静态配置,来发现目标服务对象
    • 支持多种多样的图表和界面展示,grafana也支持它

    组件
    Prometheus生态包括了很多组件,它们中的一些是可选的:

    • 主服务Prometheus Server负责抓取和存储时间序列数据
    • 客户库负责检测应用程序代码
    • 支持短生命周期的PUSH网关
    • 基于Rails/SQL仪表盘构建器的GUI
    • 多种导出工具,可以支持Prometheus存储数据转化为HAProxy、StatsD、Graphite等工具所需要的数据存储格式
    • 警告管理器
    • 命令行查询工具
    • 其他各种支撑工具

    3)Prometheus Operator

    Prometheus Operator的本职就是一组用户自定义的CRD资源以及Controller的实现,Prometheus Operator负责监听这些自定义资源的变化,并且根据这些资源的定义自动化的完成如Prometheus Server自身以及配置的自动化管理工作。以下是Prometheus Operator的架构图:

    4)metrics-server&Promehteus对比&特性

    • 使用metric-server收集数据给k8s集群内使用,如kubectl,hpa,scheduler等
    • 使用prometheus-operator部署prometheus,存储监控数据
    • 使用kube-state-metrics收集k8s集群内资源对象数据
    • 使用node_exporter收集集群中各节点的数据
    • 使用prometheus收集apiserver,scheduler,controller-manager,kubelet组件数据
    • 使用alertmanager实现监控报警
    • 使用grafana实现数据可视化

    5)Prometheus Operator VS kube-prometheus

    最开始是Heapster+cAdvisor方式监控,这是Prometheus Operator出现之前的k8s监控方案。后来出现了Prometheus Operator,但是目前Prometheus Operator已经不包含完整功能,完整的解决方案已经变为kube-prometheus。

    • Prometheus Operator 是CoreOS的一个开源项目,用来增强Prometheus在Kubernetes中的管理运维能力。利用Kubernetes的自定义资源定义 (Custom Resource Definition)的特性,实现声明式管理运维Prometheus监控告警系统。
    • kube-prometheus 为基于 Prometheus 和 Prometheus Operator 的完整集群监控堆栈提供示例配置。这包括部署多个 Prometheus 和 Alertmanager 实例、指标导出器(例如用于收集节点指标的 node_exporter)、抓取将 Prometheus 链接到各种指标端点的目标配置,以及用于通知集群中潜在问题的示例警报规则。
    • 两个项目的关系:前者只包含了Prometheus Operator,后者既包含了Operator,又包含了Prometheus相关组件的部署及常用的Prometheus自定义监控,具体包含下面的组件
      1. The Prometheus Operator:创建CRD自定义的资源对象
      2. Highly available Prometheus:创建高可用的Prometheus
      3. Highly available Alertmanager:创建高可用的告警组件
      4. Prometheus node-exporter:创建主机的监控组件
      5. Prometheus Adapter for Kubernetes Metrics APIs:创建自定义监控的指标工具(例如可以通过nginx的request来进行应用的自动伸缩)
      6. kube-state-metrics:监控k8s相关资源对象的状态指标
      7. Grafana:进行图像展示

    二、安装kube-prometheus

    前面我们学习了Heapster+cAdvisor方式监控,这是Prometheus Operator出现之前的k8s监控方案。后来出现了Prometheus Operator,但是目前Prometheus Operator已经不包含完整功能,完整的解决方案已经变为kube-prometheus。项目地址为:https://github.com/coreos/kube-prometheus

    1)安装git

    $ yum install -y git
    

    2)下载kube-prometheus

    # 下载
    $ git clone https://github.com/prometheus-operator/kube-prometheus.git
    $ cd kube-prometheus/manifests
    # yaml文件比较多,下面进行归档
    $ mkdir -p serviceMonitor prometheus adapter node-exporter blackbox kube-state-metrics grafana alertmanager operator other/{nfs-storage,ingress}
    $ mv alertmanager-* alertmanager/ && mv blackbox-exporter-* blackbox/ &&  mv grafana-* grafana/ && mv kube-state-metrics-* kube-state-metrics/ && mv node-exporter-*  node-exporter/ && mv prometheus-adapter-* adapter/ && mv prometheus-* prometheus/ && mv kubernetes-serviceMonitor* serviceMonitor/
    $ 
    

    2)修改镜像源

    国外镜像源某些镜像无法拉取,我们这里修改prometheus-operator,prometheus,alertmanager,kube-state-metrics,node-exporter,prometheus-adapter的镜像源为国内镜像源。我这里使用的是中科大的镜像源。

    # 查找
    $ grep -rn 'quay.io' *
    # 批量替换
    $ sed -i 's/quay.io/quay.mirrors.ustc.edu.cn/g' `grep "quay.io" -rl *`
    # 再查找
    $ grep -rn 'quay.io' *
    $ grep -rn 'image: ' *
    

    3)修改类型为NodePort

    为了可以从外部访问prometheus,alertmanager,grafana,我们这里修改promethes,alertmanager,grafana的service类型为NodePort类型。

    1、修改prometheus的service

    # 设置对外访问端口:30080
    $ cat prometheus-service.yaml
    

    2、修改grafana的service

    # 设置对外访问端口:30081
    $ cat grafana-service.yaml
    

    3、修改alertmanager的service

    # 设置对外访问端口:30082
    $ cat alertmanager-service.yaml
    

    4、安装CRD和prometheus-operator

    【温馨提示】CustomResourceDefinition:自定义资源

    $ kubectl apply -f setup/
    

    下载prometheus-operator镜像需要花费几分钟,这里等待几分钟,直到prometheus-operator变成running状态

    $ kubectl get pod -n monitoring
    

    5、安装prometheus, alertmanager, grafana, kube-state-metrics, node-exporter等资源

    $ kubectl apply -f .
    

    稍等一段时间再查看,查看命名空间monitoring下面的pod状态,直到monitoring命名空间下所有pod都变为running状态,就大功告成了。

    $ kubectl get pod -n monitoring
    

    如果上面下载镜像失败,可以使用以下地址下载,当然也可以去hub.docker.com下载。

    链接:https://pan.baidu.com/s/1JUx_m-JAJ8gUeJE-Gmhzig
    提取码:8888

    6、工作流程

    Prometheus Server定期从配置好的Exporters/Jobs中拉metrics,或者来着pushgateway发过来的metrics,或者其它的metrics,收集完后运行定义好的alert.rules,记录时间序列或者向Alertmanager推送警报。

    7、组件说明

    • node_exporter:用来监控运算节点上的宿主机的资源信息,需要部署到所有运算节点
    • kube-state-metric:prometheus采集k8s资源数据的exporter,能够采集绝大多数k8s内置资源的相关数据,例如pod、deploy、service等等。同时它也提供自己的数据,主要是资源采集个数和采集发生的异常次数统计
    • blackbox_exporter:监控业务容器存活性
    • prometheus-adapter:由于本身prometheus属于第三方的 解决方案,原生的k8s系统并不能对Prometheus的自定义指标进行解析,就需要借助于k8s-prometheus-adapter将这些指标数据查询接口转换为标准的Kubernetes自定义指标。

    8、验证

    $ kubectl get svc -n monitoring
    

    浏览器访问
    prometheus:http://192.168.0.113:30080/

    grafana:http://192.168.0.113:30081/login
    默认账号/密码:admin/admin

    alertmanager:http://192.168.0.113:30082/

    9、Grafana添加数据源

    1、修改prometheus地址


    10、导入DashBoards

    dashboards地址:https://grafana.com/grafana/dashboards/
    1)从官网下载模板,导入模板

    2)kubernetes模板导入(k8s模板




    三、使用Helm3安装kube-prometheus-stack

    # 添加repo
    $ helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
    $ helm repo update
    $ helm search repo prometheus-community/prometheus
    

    1)下载kube-prometheus-stack包

    # 拉包
    $ helm pull prometheus-community/kube-prometheus-stack
    # 解包
    $ tar -xf kube-prometheus-stack-19.2.3.tgz
    

    查看所需要的镜像,最好提前下载镜像,要不然很大可能会因为下载镜像失败而安装失败。

    $ grep -A3 'image:' kube-prometheus-stack/values.yaml
    

    这里提供镜像下载地址,当前也可以去hub.docker.com网站上下载,或者其它地方下载,如果下载不到对应的版本号,可以下载最新的,然后tag一个就行了。

    链接:https://pan.baidu.com/s/1NDHckhvVgDngq98BXlHLFw
    提取码:8888

    2)导入镜像(所有节点都执行)

    $ docker image load -i k8s.gcr.io-ingress-nginx-kube-webhook-certgen-v1.0.tar
    $ docker image load -i quay.io-prometheus-alertmanager-v0.22.2.tar
    $ docker image load -i quay.io-prometheus-operator-prometheus-operator-v0.50.0.tar
    $ docker image load -i quay.io-prometheus-prometheus-v2.28.1.tar
    

    3)安装kube-prometheus-stack

    # 创建命名空间
    $ kubectl create ns kube-prometheus-stack
    $ helm install mykube-prometheus-stack kube-prometheus-stack \
      -n kube-prometheus-stack \
      --set prometheus-node-exporter.hostRootFsMount=false \
      --set prometheus.ingress.enabled=true \
      --set prometheus.ingress.hosts='{prometheus.k8s.local}' \
      --set prometheus.ingress.paths='{/}' \
      --set prometheus.ingress.pathType=Prefix \
      --set alertmanager.ingress.enabled=true \
      --set alertmanager.ingress.hosts='{alertmanager.k8s.local}' \
      --set alertmanager.ingress.paths='{/}' \
      --set alertmanager.ingress.pathType=Prefix \
      --set grafana.ingress.enabled=true \
      --set grafana.ingress.hosts='{grafana.k8s.local}' \
      --set grafana.ingress.paths='{/}' \
      --set grafana.ingress.pathType=Prefix
    

    这里我没跑起来,机器跑的东西太多,已经不能支撑跑kube-prometheus-stack了,有兴趣的小伙伴可以试试~

    发现K8s v1.21+,PSP已经被废弃,不建议使用,完全移除在v1.25版本。再不学习它就学不到了。PSP官方讲解

    4)清理

    $ helm uninstall mykube-prometheus-stack -n kube-prometheus-stack
    

    更多实战监控知识,请耐心等待~

  • 相关阅读:
    基本数据类型(int, bool, str)
    循环 运算符 格式化输出 编码
    认识python 变量 数据类型 条件if语句
    简述bug的生命周期?
    性能测试的流程?
    主键、外键的作用,索引的优点与不足?
    需求测试的注意事项有哪些?
    对某软件进行测试,发现在WIN98上运行得很慢,怎么判别是该软件存在问题还是其软硬件运行环境存在问题?
    什么是兼容性测试?请举例说明如何利用兼容性测试列表进行测试。
    如何定位测试用例的作用?
  • 原文地址:https://www.cnblogs.com/liugp/p/16444580.html
Copyright © 2020-2023  润新知