传统的企业级应用,其实很少会有海量应用,因为企业的规模本身就摆在那里,能有多少数据?高并发?海量数据?不存在的!不过在互联网公司中,因为应用大多是面向广大人民群众,数据量动辄上千万上亿,那么这些海量数据要怎么存储?光靠数据库吗?肯定不是。今天和大家简单的聊一聊这个话题。海量数据,光用数据库肯定是没法搞定的,即使不读这篇文章,相信大家也能凝聚这样的共识,海量数据,不是说一种方案、两种方案就能搞定,它是一揽子方案。那么这一揽子方案都包含哪些东西呢?从以下八个方面来和大家聊聊。
首先第一种解决方案就是缓存了。
缓存,我们可以将数据直接缓存在内从中,例如 Map、也可以使用缓存框架如 Redis 等,将一些需要频繁使用的热点数据保存在缓存中,每当用户来访问的时候,就可以直接将缓存中的数据返回给用户,这样可以有效降低服务器的压力。可以缓存起来使用的数据,一般都不能对实时性要求太高。
页面静态化其实可以算作是缓存的另外一种形式,相当于直接将相关的页面渲染结果缓存起来。首先大家知道,在我们的 Web 项目中,资源分为两大类:
很多时候程序跑得慢,不是因为设备落后,而是因为数据库 SQL 写的太差劲。
要解决海量数据的问题,数据库优化肯定也是不可避免的。一般来说,我们可以从 SQL 优化、表结构优化、以及数据库分区分表等多个方面来对数据库进行优化。
数据库中的数据,虽然是海量数据,但是这些数据并不见得所有数据都是活跃数据,例如用户注册,有的用户注册完就消失的无影无踪了,而有的用户则在不停的登录,因此,对于这两种不同的用户,我们可以将活跃用户分离出来,在主要操作的数据表中只保存活跃用户数据。每次用户登录,先去主表中查看有没有记录,有的话,直接登录,没有的话,再去查看其他表。
通过判断用户在某一段时间内的登录次数,就可以很快分离出热点数据。
这个方案的宗旨其实是减少数据库操作的次数,例如多次插入操作,我们可以合并成一条 SQL 搞定。多个不同条件的查询,如果条件允许的话,也可以合并成为一个查询,尽量减少数据库的操作,减少在网络上消耗,同时也降低数据库的压力。
数据库的读写分离其实在之前的 MyCat 中也和大伙聊过了(MyCat 系列),读写分离之后,一方面可以提高数据库的操作效率,另一方面也算是对数据库的一个备份。
数据库读写分离之后,无形中增大了代码的复杂度,所以一般还需要借助分布式数据库中间件,这样可以有效提高数据库的弹性,可以方便的随时为数据库扩容,同时也降低代码的耦合度。
另外,引入 NoSQL 和 Hadoop 也是解决方案之一。NoSQL 突破了关系型数据库中对表结构、字段等定义的条条框框,使用户可以非常灵活方便的操作,另外 NoSQL 通过多个存储块存储数据的特点,使得天然具备操作大数据的优势(快)。不过,老实说,NoSQL 目前还是在互联网项目中比较常见,在传统的企业级应用中还是比较少见。
Hadoop 就不必说了,大数据处理利器。很多时候技术和架构只是一个工具,所有的东西都摆在你面前,关键是如何把这些东西组合在一起,使之产生最大化收益,这就需要大家慢慢琢磨。好了,简单的从 8 个方面和大家聊一聊这个问题,大家在工作中有没有遇到类似问题呢?你都是怎么处理的?欢迎留言讨论。
1. 缓存
首先第一种解决方案就是缓存了。
缓存,我们可以将数据直接缓存在内从中,例如 Map、也可以使用缓存框架如 Redis 等,将一些需要频繁使用的热点数据保存在缓存中,每当用户来访问的时候,就可以直接将缓存中的数据返回给用户,这样可以有效降低服务器的压力。可以缓存起来使用的数据,一般都不能对实时性要求太高。
2、页面静态化
页面静态化其实可以算作是缓存的另外一种形式,相当于直接将相关的页面渲染结果缓存起来。首先大家知道,在我们的 Web 项目中,资源分为两大类:
- 静态资源
- 动态资源
3、数据库优化
很多时候程序跑得慢,不是因为设备落后,而是因为数据库 SQL 写的太差劲。
要解决海量数据的问题,数据库优化肯定也是不可避免的。一般来说,我们可以从 SQL 优化、表结构优化、以及数据库分区分表等多个方面来对数据库进行优化。
4、热点数据分离
数据库中的数据,虽然是海量数据,但是这些数据并不见得所有数据都是活跃数据,例如用户注册,有的用户注册完就消失的无影无踪了,而有的用户则在不停的登录,因此,对于这两种不同的用户,我们可以将活跃用户分离出来,在主要操作的数据表中只保存活跃用户数据。每次用户登录,先去主表中查看有没有记录,有的话,直接登录,没有的话,再去查看其他表。
通过判断用户在某一段时间内的登录次数,就可以很快分离出热点数据。
5、合并数据库操作
这个方案的宗旨其实是减少数据库操作的次数,例如多次插入操作,我们可以合并成一条 SQL 搞定。多个不同条件的查询,如果条件允许的话,也可以合并成为一个查询,尽量减少数据库的操作,减少在网络上消耗,同时也降低数据库的压力。
6、数据库读写分离
数据库的读写分离其实在之前的 MyCat 中也和大伙聊过了(MyCat 系列),读写分离之后,一方面可以提高数据库的操作效率,另一方面也算是对数据库的一个备份。
7、分布式数据库
数据库读写分离之后,无形中增大了代码的复杂度,所以一般还需要借助分布式数据库中间件,这样可以有效提高数据库的弹性,可以方便的随时为数据库扩容,同时也降低代码的耦合度。
8、NoSQL 和 Hadoop
另外,引入 NoSQL 和 Hadoop 也是解决方案之一。NoSQL 突破了关系型数据库中对表结构、字段等定义的条条框框,使用户可以非常灵活方便的操作,另外 NoSQL 通过多个存储块存储数据的特点,使得天然具备操作大数据的优势(快)。不过,老实说,NoSQL 目前还是在互联网项目中比较常见,在传统的企业级应用中还是比较少见。
Hadoop 就不必说了,大数据处理利器。很多时候技术和架构只是一个工具,所有的东西都摆在你面前,关键是如何把这些东西组合在一起,使之产生最大化收益,这就需要大家慢慢琢磨。好了,简单的从 8 个方面和大家聊一聊这个问题,大家在工作中有没有遇到类似问题呢?你都是怎么处理的?欢迎留言讨论。
扩展阅读
数据和云小程序『DBASK』在线问答,随时解惑 欢迎了解和关注。
数据和云
ID:OraNews
如有收获,请划至底部,点击“在看”,谢谢!
公司简介 | 招聘 | DTCC | 数据技术嘉年华 | 免费课程 | 入驻华为严选商城
zCloud | SQM | Bethune Pro2 | zData一体机 | MyData一体机 | ZDBM 备份一体机
Oracle技术架构 | 免费课程 | 数据库排行榜 | DBASK问题集萃 | 技术通讯
升级迁移 | 性能优化 | 智能整合 | 安全保障 | 架构设计 | SQL审核 | 分布式架构 | 高可用容灾 | 运维代维
云和恩墨大讲堂 | 一个分享交流的地方
长按,识别二维码,加入万人交流社群
请备注:云和恩墨大讲堂