• kube-state-metrics 详解


    原文:https://mp.weixin.qq.com/s/176eyFBknzdA5wpiJrxDSg

    概述

    已经有了 cadvisor、heapster、metric-server,几乎容器运行的所有指标都能拿到,但是下面这种情况却无能为力:

    • 我调度了多少个 replicas?现在可用的有几个?

    • 多少个 Pod 是 running/stopped/terminated 状态?

    • Pod 重启了多少次?

    • 我有多少 job 在运行中

    而这些则是 kube-state-metrics 提供的内容,它基于 client-go 开发,轮询 Kubernetes API,并将 Kubernetes的结构化信息转换为metrics。

    功能

    kube-state-metrics 提供的指标,按照阶段分为三种类别:

    • 1.实验性质的:k8s api 中 alpha 阶段的或者 spec 的字段。

    • 2.稳定版本的:k8s 中不向后兼容的主要版本的更新

    • 3.被废弃的:已经不在维护的。

    指标类别包括:

    - CronJob Metrics

    - DaemonSet Metrics

    - Deployment Metrics

    - Job Metrics

    - LimitRange Metrics

    - Node Metrics

    - PersistentVolume Metrics

    - PersistentVolumeClaim Metrics

    - Pod Metrics

    - Pod Disruption Budget Metrics

    - ReplicaSet Metrics

    - ReplicationController Metrics

    - ResourceQuota Metrics

    - Service Metrics

    - StatefulSet Metrics

    - Namespace Metrics

    - Horizontal Pod Autoscaler Metrics

    - Endpoint Metrics

    - Secret Metrics

    - ConfigMap Metrics

    以 Pod 为例:

    - kube_pod_info

    - kube_pod_owner

    - kube_pod_status_phase

    - kube_pod_status_ready

    - kube_pod_status_scheduled

    - kube_pod_container_status_waiting

    - kube_pod_container_status_terminated_reason

    - ...

    使用

    部署清单地址:https://github.com/kubernetes/kube-state-metrics/tree/master/kubernetes

    主要镜像有: image: quay.io/coreos/kube-state-metrics:v1.5.0 image: k8s.gcr.io/addon-resizer:1.8.3(参考metric-server文章,用于扩缩容)

    对于pod的资源限制,一般情况下:

    200MiB memory 0.1 cores

    超过100节点的集群:

    2MiB memory per node 0.001 cores per node

    kube-state-metrics 做过一次性能优化,具体内容参考下文

    部署成功后,prometheus的target会出现如下标志

    因为 kube-state-metrics-service.yaml 中有 prometheus.io/scrape:'true'标识,因此会将 metric 暴露给 Prometheus,而 Prometheus 会在 kubernetes-service-endpoints 这个 job 下自动发现kube-state-metrics,并开始拉取 metrics,无需其他配置。

    使用 kube-state-metrics 后的常用场景有:

    • 存在执行失败的 Job: kube_job_status_failed{job="kubernetes-service-endpoints",k8s_app="kube-state-metrics"}==1

    • 集群节点状态错误: kube_node_status_condition{condition="Ready",status!="true"}==1

    • 集群中存在启动失败的 Pod: kube_pod_status_phase{phase=~"Failed|Unknown"}==1

    • 最近30分钟内有 Pod 容器重启: changes(kube_pod_container_status_restarts[30m])>0

    配合报警可以更好地监控集群的运行

    与metric-server的对比

    • metric-server(或heapster)是从 api-server 中获取 cpu、内存使用率这种监控指标,并把他们发送给存储后端,如 influxdb 或云厂商,他当前的核心作用是:为 HPA 等组件提供决策指标支持。

    • kube-state-metrics 关注于获取 k8s 各种资源的最新状态,如 deployment 或者 daemonset,之所以没有把kube-state-metrics 纳入到 metric-server 的能力中,是因为他们的关注点本质上是不一样的。metric-server仅仅是获取、格式化现有数据,写入特定的存储,实质上是一个监控系统。而 kube-state-metrics 是将 k8s 的运行状况在内存中做了个快照,并且获取新的指标,但他没有能力导出这些指标

    • 换个角度讲,kube-state-metrics 本身是 metric-server 的一种数据来源,虽然现在没有这么做。

    • 另外,像 Prometheus 这种监控系统,并不会去用 metric-server 中的数据,他都是自己做指标收集、集成的(Prometheus包含了metric-server的能力),但 Prometheus 可以监控 metric-server 本身组件的监控状态并适时报警,这里的监控就可以通过 kube-state-metrics 来实现,如 metric-server pod 的运行状态。

    深入解析

    kube-state-metrics 本质上是不断轮询 api-server,代码结构也很简单,主要代码目录:

    1. .

    2. ├── collectors

    3. │   ├── builder.go

    4. │   ├── collectors.go

    5. │   ├── configmap.go

    6. │   ......

    7. │   ├── testutils.go

    8. │   ├── testutils_test.go

    9. │   └── utils.go

    10. ├── constant

    11. │   └── resource_unit.go

    12. ├── metrics

    13. │   ├── metrics.go

    14. │   └── metrics_test.go

    15. ├── metrics_store

    16. │   ├── metrics_store.go

    17. │   └── metrics_store_test.go

    18. ├── options

    19. │   ├── collector.go

    20. │   ├── options.go

    21. │   ├── options_test.go

    22. │   ├── types.go

    23. │   └── types_test.go

    24. ├── version

    25. │   └── version.go

    26. └── whiteblacklist

    27.    ├── whiteblacklist.go

    28.    └── whiteblacklist_test.go

    所有类型:

    1. var (

    2.    DefaultNamespaces = NamespaceList{metav1.NamespaceAll}

    3.    DefaultCollectors = CollectorSet{

    4.        "daemonsets":               struct{}{},

    5.        "deployments":              struct{}{},

    6.        "limitranges":              struct{}{},

    7.        "nodes":                    struct{}{},

    8.        "pods":                     struct{}{},

    9.        "poddisruptionbudgets":     struct{}{},

    10.        "replicasets":              struct{}{},

    11.        "replicationcontrollers":   struct{}{},

    12.        "resourcequotas":           struct{}{},

    13.        "services":                 struct{}{},

    14.        "jobs":                     struct{}{},

    15.        "cronjobs":                 struct{}{},

    16.        "statefulsets":             struct{}{},

    17.        "persistentvolumes":        struct{}{},

    18.        "persistentvolumeclaims":   struct{}{},

    19.        "namespaces":               struct{}{},

    20.        "horizontalpodautoscalers": struct{}{},

    21.        "endpoints":                struct{}{},

    22.        "secrets":                  struct{}{},

    23.        "configmaps":               struct{}{},

    24.    }

    25. )

    构建对应的收集器

    Family即一个类型的资源集合,如 job 下的 kubejobinfo、kubejobcreated,都是一个 FamilyGenerator 实例

    1. metrics.FamilyGenerator {

    2.            Name: "kube_job_info",

    3.            Type: metrics.MetricTypeGauge,

    4.            Help: "Information about job.",

    5.            GenerateFunc: wrapJobFunc(func(j *v1batch.Job) metrics.Family {

    6.                return metrics.Family{&metrics.Metric{

    7.                    Name:  "kube_job_info",

    8.                    Value: 1,

    9.                }}

    10.            }),

    11.        },

    12. func (b *Builder) buildCronJobCollector() *Collector {

    13.   // 过滤传入的白名单

    14.    filteredMetricFamilies := filterMetricFamilies(b.whiteBlackList, cronJobMetricFamilies)

    15.    composedMetricGenFuncs := composeMetricGenFuncs(filteredMetricFamilies)

    16.  // 将参数写到header中

    17.    familyHeaders := extractMetricFamilyHeaders(filteredMetricFamilies)

    18.  // NewMetricsStore实现了client-go的cache.Store接口,实现本地缓存。

    19.    store := metricsstore.NewMetricsStore(

    20.        familyHeaders,

    21.        composedMetricGenFuncs,

    22.    )

    23.  // 按namespace构建Reflector,监听变化

    24.    reflectorPerNamespace(b.ctx, b.kubeClient, &batchv1beta1.CronJob{}, store, b.namespaces, createCronJobListWatch)

    25.    return NewCollector(store)

    26. }

    性能优化:

    kube-state-metrics 在之前的版本中暴露出两个问题:

    • 1./metrics 接口响应慢(10-20s)

    • 2.内存消耗太大,导致超出 limit 被杀掉

    问题一的方案就是基于 client-go 的 cache tool 实现本地缓存,具体结构为:

    1. var cache = map[uuid][]byte{}

    问题二的的方案是:对于时间序列的字符串,是存在很多重复字符的(如 namespace 等前缀筛选),可以用指针或者结构化这些重复字符。

    优化点和问题

    • 1.因为 kube-state-metrics 是监听资源的 add、delete、update 事件,那么在 kube-state-metrics 部署之前已经运行的资源,岂不是拿不到数据?kube-state-metric 利用 client-go 可以初始化所有已经存在的资源对象,确保没有任何遗漏

    • 2.kube-state-metrics 当前不会输出 metadata 信息(如 help 和 description)

    • 3.缓存实现是基于 golang 的 map,解决并发读问题当期是用了一个简单的互斥锁,可以解决问题,后续会考虑golang 的 sync.Map 安全 map。

    • 4.kube-state-metrics 通过比较 resource version 来保证 event 的顺序

    • 5.kube-state-metrics 并不保证包含所有资源

  • 相关阅读:
    线性动力学变分原理基础 Part1
    对分析动力学的一些理解
    Matlab数值求解超越方程的根
    FORTRAN数值求超越方程的根
    vim 基础操作
    a simple vim set for fortran
    g95 ld: cannot find crt1.o: No such file or directory
    ug中英文对照
    autocad一些快捷键和命令
    列选主元的高斯消元法的Fortran程序
  • 原文地址:https://www.cnblogs.com/robinunix/p/11169200.html
Copyright © 2020-2023  润新知