保持数据表结构不变,通过某种策略存储数据分片,重要每一片数据分散到不同的表或者库中,达到了分布式的目的。水平拆分可以支撑非常大的数据量。
水平拆分是指数据表行的拆分,表的行数超过200万行时,就会变慢,这时可以把一张的表的数据拆成多张表来存储。比如可以将用户信息表拆分成多个用户信息表,这样就能避免单一表数据量过大对性能造成的影响。
水平拆分可以支持非常大的数据量。需要注意:分表仅仅是解决了单一数据过大的问题,但由于表的数据还是在同一台机器上,其实对提升MySQL并发性能没有什么意义,所以水平拆分最好分库。
水平拆分能支持非常大的数据量存储,应用端改造也少,但分片事务难以解决,跨节点join性能较差,逻辑复杂。尽量不要对数据进行分片,因为拆分会带来逻辑、部署、运维的各种复杂度,一般的数据表在优化得当的情况下支撑千万以下的数据量是没太大问题的。如果实在要分片,尽量选择客户端分片架构,这样可以减少一次和中间件的网络IO。
常见数据库分片的两种方案:
(1)客户端代理:分片逻辑在应用端,封装在jar包中,通过修改或者封装JDBC层来实现。当当网的sharding-JDBC、阿里的TDDL是两种比较常见的实现。
(2)中间件代理:在应用和数据中间加了一个代理层。分片逻辑统一维护在中间件服务中。现在的mycat、360的Atlas、网易的DDB等都是这种架构的实现。