问题原因找到了,那就好办了。
找到阿里云技术人员,让他们强行给我们上架了一个共享代理模式的RDS。 并重新进行压力测试。
哦豁~ 开心,压力测试顺利,异常率大大降低实际为:
数据库DBA反馈,数据库收到很多请求处理,数据库开始正常工作。(之前都是,数据库连接满,但活跃连接只有1到5个)。 数据库连接数在50到100之间波动,且基本都是活跃连接。
NGINX和php那边都工作正常,服务器cpu压力下降。各项功能都平稳。
然后开始真真正正进行模拟生产用户数据压力测试:
生产环境数据如下:
高峰时期: 总并发连接数12w 活跃连接数10万;新建连接数1300/s;吞吐量:6200/S。
如何通过调整jmeter脚本的线程数,吞吐量来实现该场景,就得多次尝试了。
jmeter运行环境如下: centos7 java1.8.161; jmeter 5.2.1 4C8G。 阿里云机器。
1,实现并发连接数和活跃连接数。
并发连接数=活跃连接数+非活跃连接数
活跃连接数=jmeter线程数*执行机器数量
非活跃连接数=tcp连接中断数: 实际执行过程中发现:如果设置的吞吐量过高,会造成大量的非活跃连接数。与真实请求场景不一致。 后面细说。
如何提升活跃连接数:------加机器+内存。没其它办法。现在的机器一般cpu都是够用的。 实际设置1800线程运行时,机器只有20%的cpu使用率。
通过测试的经验计算,大概一个线程需要消耗3M内存。所有如果想跑2000线程,那么你得设置虚拟机6000m,否则,会爆出内存溢出错误。
通过命令启动执行机:
JVM_ARGS="-Xms1024m -Xmx6000m" ./jmeter-server & ####注意,不要超过自己机器实际能使用的内存!!!!留点空闲给机器本身用,否则会很卡,很慢。异常高。
我喜欢这种方式,方便调整内存。哈哈。
顺便写几个清理内存和杀进程的命令:
查看执行机运行日志: tail -f apache-jmeter-5.2.1/bin/jmeter-server.log 查看1099端口: netstat -an|grep 1099 查看java进程: ps -ef|grep java 批量杀进程操作:我特别喜欢哈哈 ps -ef|grep java|awk '{print $2}'|xargs kill -9 统计查询tcp 80端口数量: netstat -nat|grep -i 80|wc -l 统计查询tcp time_wait 端口数量: netstat -an | awk '/^tcp/ {++s[$NF]} END {for(a in s) print a,s[a]}'
查看内存使用量:
free -m
同步缓存:
sync
清理内存:建议在杀java进程后使用,先使用sync同步。
echo 3 > /proc/sys/vm/drop_caches
实际运行效果,机器正常跑2000线程正常,不卡,不慢,非常happy~
然后计算10万用户=10万除以2000===50个机器~~~ 汗~~有点难申请。还要加5个调度机、、一共是55个机器~ 1个调度机带10个执行机。
和大佬凶猛的沟通了一阵子~ 同意了。直接在阿里云上复制已经调试好jmeter的执行机。刷刷刷刷~~~机器到手了。 反正阿里云按量收费,用一天也没多少钱。
如何降低非活跃连接数呢?
由于我设置的tcp连接超时周期为30秒,当我未对吞吐量进行限制时:发现非活跃连接数非常多。 这与生产环境不一致。(该测试结果图片基于 1带13执行机,用户线程1500.当时的吞吐量为12000/s,大大超过实际的需求)
生产环境数据:
仔细琢磨计算了一下。生产10万活跃用户,才6200吞吐量,那么。 2万活跃用户的吞吐量应该是===1300:
这里发现一个关键指标: 新建并发连接数:生产环境高峰期也就1300,而我 6000+;所以,会出现大量的非活跃连接请求就很正常了。
解决办法:使用jmeter定时器》》精准吞吐量计时器来对吞吐量进行限制。降低新建连接数,降低吞吐量。
通过计算:20000活跃用户吞吐量1300,那么jmeter脚本2000线程对于吞吐量是130/s。额好低。不忍直视。习惯了几千几千上万的,吞吐量。最后发现只要设置130。
所以:这里有一个结论,真真的性能大神测试时,都不是像我这样的搞茫茫多机器去跑,一般也就设置100到200线程,进行服务器性能测试。通过性能调优来优化服务器。通过对测试结果日志的分析,来找到服务器问题的。
而不是像我这样,去想着把服务器搞挂,来复现问题…………
好了,设置好jmeter吞吐量,再进行一波测试。
非活跃连接数大大降低~~达到理想要求。 但还是比较多~ 新建请求连接数1690~ 超过高峰1300. 还需要慢慢优化~
脚本环境都调试完毕,以后,就开始加机器,测试吧~~~
待补充: 等测完了再来补充
过去了一个月,终于有时间来补欠下的债了。。
与运维沟通配置3套压测机环境,都是1带14.共组成42个执行机。
单机脚本配置2200用户。
测试接口共配置51个业务接口,共组成7个业务流程。
测试计划为:
业务量类型 |
80% |
100% |
150% |
目的 |
并发数 |
9600 |
12000 |
18000 |
分析性能变化趋势 分析性能问题 帮助定容定量 |
TPS |
4960 |
6200 |
9300 |
|
新建连接数 |
1680 |
2100 |
3250 |
80% 场景结果:
根据图表数据可以看到;业务系统服务器内存使用40%,cpu使用52%,服务器各个指标稳定。Jmeter请求响应平均响应时间100ms,请求异常数量为0;RDS各项指标也很稳定,主库从库连接数,TPS都很正常。请求连接没有积压。
100%请求场景:
根据测试结果数据可以看到,业务系统服务器CPU,内存稳定,负载均衡器也很稳定。RDS主库和从库都很稳定。
Jmeter 请求有0.05%的异常概率,经过分析,为压测机器tcp端口耗尽超时导致。不影响服务器性能。
150%性能场景:
当进行150%负载时,服务器cpu达到90%以上,并出现排队现象。
TPS/QPS稳定在9000左右。 数据RDS连接数增加到100%时的几倍。请求响应平均时间为400ms。服务器已经满负荷运行。
使用手机进行打开APP进行体验:打开页面缓慢,打开链接页面在3秒左右,但都能正常操作。服务器能正常处理数据,未出现卡死,奔溃。
稳定性测试结果: 持续运行3小时。
测试结果:实际活跃连接数为90000左右,总连接数为155500左右。服务器cpu性能跑满。RDS压力不大。持续运行3小时后,系统能正常提供服务,但比较慢。
测试结果总结:
参数 |
测试数据 |
||
性能指标 |
80% |
100% |
150% |
ART(ms) |
90 |
100 |
400 |
TPS |
4900 |
6050 |
9000 |
CPU |
40.1% |
40.2% |
90% |
MEM |
40 |
40 |
44 |
RDS主QPS/TPS |
1811/257 |
1781/303 |
2624/412 |
RDS读QPS/TPS |
13195/279 |
12820/289 |
19443/411 |
测试数据已经完成,剩下的就是分析调优了,这个后续再开新章节。
遇到一个新的错误: 机器内存耗尽了。自动杀死进程。--调整jvm的内存,减少线程数。保证可用内存大于200M。