• 研究动态扩容数据库解决方案


      随着互联网的数据量越来越大,很多单表的数据量已经上亿了,甚至更多,这样单表的数据已经达到了查询的瓶颈,那么就需要将数据库进行拆分。

      如何有效的进行数据库拆分呢,而且在互联网公司停机进行数据库处理不是很现实,因为影响了业务量。那么就需要更好的方法去进行解决。

      首先咱们先准备一下数据库,然后将数据库建立好相同的表结构。通过服务双写继续将旧数据库继续进行CRUD操作,然后将新数据进行增删改操作。记录就数据库里边的一个标志,然后将旧数据库的标志之前的数据,通过写一个同步工具将旧的数据库表的数据同步到新数据库中。效果如下图:

      

      这样新产生的数据将写到新库,同时旧数据库的数据进行及时同步。

      数据同步完成后需要进一步检查所有的数据,如果没有问题就申请两个虚拟IP或者域名,然后分别挂到两台机器上。

      这样一个数据库就变成两台数据库了,然后两台数据库将表中的字段进行hash,hash结果为0的走到第一个数据库中,hash结果为1的走到数据库中。效果如下:

      在切换的过程中,需要通过ZK配置直接将数据库进行这种方式的切换。此时需要观察一周左右的时间,同时两个数据库双写可以继续写着,防止新库出现数据问题是及时往旧数据库进行切换。

      如果一周之后没有问题的话,将双写去掉,实现数据的分离。

      这个时候数据库还没有完全分开,has(key)=0的数据库中还存在着hash(key) = 1的数据,这时需要把这样的数据删除掉。这样上亿的数据分为两个库,然后两个数据库每个各5000万条。

      数据库分开之后,后续的统计等结果还要进行相应的修改,需要通过在内存中计算结果,然后把计算的结果放到汇总起来,得到统计和分析的结果。

      这样就基本实现了不用停机服务而进行的数据库切换。

      大家应该也注意到上图中,为了实现高可用,一个主库都带着一个主库,两个库之间通过任务进行的数据同步,假如访问虚拟IP的时候一个数据库出现了问题,那么直接接到另一个数据库上。

      未来的话,需要再需要继续扩容的话,还需要以2*n的库进行扩容,这样has(key) = 0 和 hash(key) = 2数据保持一致, hash(key) = 1 和 hash(key) = 3数据一致。当数据同步完成之后0,2就可以按照上述的方法进行拆分,然后拆为两个虚拟IP,同时将hash(key)=2的数据从数据库  hash(key)= 0的数据库删除掉,1、3相同的原理,这样数据库就实现了同步。

      同学们有没有更好的方法?可以和我一起讨论。当然咱们还有一些分库分表比较成熟的工具比如ShardingSphere和MyCAT,这些工具都是比较好的分库分表解决方案,当然在使用之前一定要做好功课,避免使用的时候采坑。

      有问题欢迎来拍~

      

      

  • 相关阅读:
    Stanford NLP 第六课: Long Short Term Memory
    Stanford NLP 第五课: RNN Vanishing Gradient Problems Details
    Stanford NLP 第四课 神经网络复习
    Stanford cs224n 第三课: GloVe 代码解读
    Stanford CS224N 第二课: word2vec踩坑经验分享
    秒杀抢购系统优化思路详解
    微服务的事件驱动数据管理方案
    Netty与网络编程
    Netty 学习 一、初识Netty【原创】
    高性能Server---Reactor模型【转载】
  • 原文地址:https://www.cnblogs.com/huangqingshi/p/11260249.html
Copyright © 2020-2023  润新知