这两天接到任务说是要进行测试缩减机器给集群带来的负面效果有哪些。
然后我就按照官方的教程将机器进行了缩减,主要是缩减tikv节点
我们先来看看官方的文章是怎么写的:
步骤都没有什么问题,就是进行到第二步的时候,一定要等到节点的状态变成“Tombstone”才可以正常下线。但在刚开始的时候,他的状态一直是“offline”,此时的状态说明节点正在迁移leader节点和数据,官方说是等待几分钟就可以了,而我在进行缩减三个节点中,有一个节点等了两天还是“offline”的状态,我觉得这肯定是有问题的,然后我就继续往下执行了第三步,等了大半天,还是这样的状态,再后来我对中控机进行压力测试的时候,发现这个删除的tikv节点还能进行存储计算,然后我就懵逼了,这么长时间还没有迁移完。tidb的效率有时候太低了,没办法只能慢慢等了。
加机器节点tikv:
我这里加机器一共有两台,第一台是使用一个全新的机器进行添加,添加的步骤我们直接按照官网的步骤来即可:https://www.pingcap.com/docs-cn/op-guide/ansible-deployment-scale/
第一台机器非常好添加,按照官方的步骤直接执行以下即可。而第二台就比较麻烦了,这个机器是。执行了好几遍,中控机使用ansile执行没有报错,也成功了,但是此tikv节点所在机器上并没有关于tikv的相关进程,让我很是头疼,连续执行了好几次都没有成功。
后来我在按照官方步骤的时候这样子来做,算是成功了:
主要是红色方框的这些信息,然后我突然想到我的配置文件也是这么写的:
我前面的这个红色方框不就是节点的别名吗?然后我就这样子来尝试一下,最后真的成功了,在部署新节点的时候,使用这个别名来部署,最后成功了。
所以说大家以后看信息的时候一定要仔细一点来,不能慌