###################ElasticSearch监控指标梳理########################### #author:lugh1 # #date:2021-09-26 # #description:ES监控指标 # ###################ElasticSearch监控指标梳理########################### ##集群 status #集群状态green、yellow、red number_of_nodes #集群节点个数 active_primary_shards #正常的主分片数量 active_shards #正常的分片数 relocating_shards #正在迁移的分片数 initializing_shards #刚刚创建的分片数 unassigned_shards #未分配的分片数 nodes.count #节点数量 indices.count #总的索引数量 indices.shards.total #总分片数 indices.docs.count #总的文档数 indices.store.size_in_bytes #总存储大小 indices.fielddata.memory_size_in_bytes #用于fielddata的内存总大小 indices.query_cache.memory_size_in_bytes #用于查询缓存的总内存大小 indices.segments.count #段总数量 #如上内容可以通过/_cat/_health和/_cluster/stats查看 ##查询 indices.search.query_total #查询总数 indices.search.query_time_in_millis #查询总时间 indices.search.query_current #当前正在进行的查询数量 indices.search.fetch_total #提取总数 indices.search.fetch_time_in_millis #花费在提取上的总时间 indices.search.fetch_current #当前正在进行的提取数 ##索引 indices.indexing.index_total #索引的文件总数 indices.indexing.index_time_in_millis #索引文档总时间 indices.indexing.index_current #目前索引的文件数量 indices.refresh.total #索引刷新总数 indices.refresh.total_time_in_millis #刷新指数的总时间 indices.flush.total #索引刷新总数到磁盘 indices.flush.total_time_in_millis #将索引刷新到磁盘上的总时间 merges.current_docs #目前的合并。合并目前正在处理中 merges.total_docs #合并总数。合并总数的计数 merges.total_stopped_time_in_millis #合并花费的总时间。合并段的所有时间的聚合 ##节点 nodes.roles #比如masternode,datanode nodes.indices.docs #每个节点内存的文档数 nodes.indices.store #节点耗用了多少物理存储 nodes.indices.indexing #节点索引相关指标 nodes.indices.merges #包括了 Lucene 段合并相关的信息。它会告诉你目前在运行几个合并,合并涉及的文档数量,正在合并的段的总大小,以及在合并操作上消耗的总时间 nodes.indices.search #在活跃中的搜索( open_contexts )数量、查询的总数量、以及自节点启动以来在查询上消耗的总时间 nodes.indices.fielddata #接近于 0。因为 fielddata 不是缓存,任何驱逐都消耗巨大,应该避免掉。如果你在这里看到驱逐数,你需要重新评估你的内存情况,fielddata 限制 nodes.indices.segments #展示这个节点目前正在服务中的 Lucene 段的数量 nodes.indices.memory #统计值展示了 Lucene 段自己用掉的内存大小。这里包括底层数据结构,比如倒排表,字典,和布隆过滤器等。 nodes.thread.pool #节点线程池相关指标 nodes.breaks #熔断相关指标,有总熔断以及查询熔断和fielddata熔断等 ##机器 nodes.os.cpu.percent #CPU使用率 nodes.os.cpu.load_averager #负载 nodes.os.mem #内存使用相关指标 nodes.os.swap #Swap使用相关指标 nodes.process.open_filedescriptors #打开的文件描述符 nodes.fs #文件系统相关指标,比如IO,读写,磁盘存储和目录等 nodes.http.current_open #http连接当前打开数 网络流出/流入字节数,tcp连接等 ##JVM&GC nodes.jvm.gc.collectors.young.collection_count #年轻代垃圾回收总数 nodes.jvm.gc.collectors.young.collection_time_in_millis #年轻代垃圾回收耗时 nodes.jvm.gc.collectors.old.collection_count #年老代垃圾回收总数 nodes.jvm.gc.collectors.old.collection_time_in_millis #年老代垃圾回收耗时 nodes.jvm.mem.heap_used_percent #当前JVM堆占比 nodes.jvm.mem.heap_committed_in_bytes #已提交的JVM堆量 nodes.jvm.threads #jvm线程相关指标 nodes.jvm.classes #jvm类加载相关指标 ##其他 正在运行的任务数,运行时间,任务类型,运行节点等 #/_cat/tasks 每个索引的状态,health,主副分片,文档数,存储的大小等 #/_cat/indices 排队的任务数量 #/_cat/pending_tasks 参考: https://blog.csdn.net/wuzhiwei549/article/details/83211715 https://www.elastic.co/guide/cn/elasticsearch/guide/current/_cluster_health.html https://blog.csdn.net/prestigeding/article/details/89815143