很多网络流量监控软件都提供了一个95th的值,开始一直不太理解,终于在solarwinds官网找到答案。 95th百分点指的是所给数集中超过其95%的数。它是一个统计学上的概念。对于某个接口,准确统计它的流量时非常有用,它可以取出一些偶然得到的异常值。 95th百分点是统计时所采用的最高值,超过的5%的数据将被舍弃。这样可以将瞬间的毛刺(尖峰)去掉,使统计平均更具真实意义。例如: 收集的数据为60,45,43,21,56,89,76,32,22,10,12,14,23,35,45,43,23,23,43,23 (20 个点)。
将该序列降序排列,其最大值为89。由于20个点的5%为1,所以我们舍弃1个最大值89。剩下的最大值76就是我们所说的95th百分点。
服务端的监控有很多指标,常见的QPS和延时,通常延时我们会用95th、99th来标记。很多工作多年的服务端工程师平常会查看延时,但是这两个指标是什么意思都不清楚。很多开源的数据库压测工具都会关注这个指标,比如:YCSB. 首先,这是一个统计的概念。如果知道某数在一个有序排列的集合中,处于什么位置,我们就对整个数据集合就有了概念。首先,它衡量的是一组数据,对于某个接口,准确统计它的流量时非常有用,它可以取出一些偶然得到的异常值。 95th百分点是统计时所采用的最高值,超过的5%的数据将被舍弃。 这样可以将瞬间的毛刺(尖峰)去掉,使统计平均更具真实意义。 例如: 收集的数据(20个点)为 将该序列降序排列。 由于20个点的5%为1,所以我们舍弃1个最大值89。剩下的最大值76就是我们所说的95th百分点. 在服务端中,假如你1min中采集了1000词请求的延时,那么95标记的就是降序排完之后950个的延时,这样极端的个别lantency异常的点就不会被统计到,从而让你以为是整体延时偏高。
运维中的P95:https://www.zhihu.com/question/20575291/answer/22814728 下面大家可以参考下, :the 95th-percentile , 95th percentile百分点指的是所给数集中超过其95%的数。它是一个统计学上的概念。对于某个接口,准确统计它的流量时非常有用,它可以取出一些偶然得到的异常值。 95th百分点是统计时所采用的最高值,超过的5%的数据将被舍弃。这样可以将瞬间的毛刺(尖峰)去掉,使统计平均更具真实意义。例如: 收集的数据为60,45,43,21,56,89,76,32,22,10,12,14,23,35,45,43,23,23,43,23 (20 个点)。将该序列降序排列,其最大值为89。由于20个点的5%为1,所以我们舍弃1个最大值89。剩下的最大值76就是我们所说的95th百分点 刚好今天下午需要用到这个概念,现学现卖,我说一下我的理解:要明白第95百分位数就要理解什么叫做百分位数。在说明百分位数概念的时候,先要说明一个前提,那就是我们的研究对象是一组数据。在一组数据所构成的样本集合中,对于其中的一个样本来说,小于这个样本的值的样本应该是整个样本集合的一个子集,而且我们能够计算出小于这个样本值的样本数量在整个样本集合中占到百分之多少,那么这个样本的值就是这个百分数所对应的百分位数。举一个例子,小明在一次考试中得了50分,而全班有70%的同学的成绩都小于50分,那么对于由整个班级的考试成绩所构成的一个样本集合来说,第70百分位数等于50。百分位数的意义就在于,我们可以了解到某一个样本在整个样本集合中所处的位置或者某一个样本组的值大概是怎么样分布的。在计算百分位数的时候有这样几种方法:(1)最近序数方法(The Nearest Rank method)(2)在最近序数间线性插值的方法(The Linear Interpolation Between Closest Ranks method)(3)权重百分位数方法(The Weighted Percentile method)(4)微软excel表格算法(Microsoft Excel method)(5)NIST方法(NIST method) 错误的理解,应该是指数据排序后,从最小值数起,排在70%上的数。而不是反过来,给定一个数来看小于它的数所占比例