mysql基础知识点三排序分组分页优化

mysql基础知识点三-排序分组分页优化

表结构

CREATE TABLE `employees` (
  `id` int NOT NULL AUTO_INCREMENT,
  `name` varchar(24) NOT NULL DEFAULT '' COMMENT '姓名',
  `age` int NOT NULL DEFAULT '0' COMMENT '年龄',
  `position` varchar(20) NOT NULL DEFAULT '' COMMENT '职位',
  `hire_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '入职时间',
  PRIMARY KEY (`id`),
  KEY `idx_name_age_position` (`name`,`age`,`position`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=100007 DEFAULT CHARSET=utf8mb3 COMMENT='员工记录表';

order by

order by 也遵守最左前缀，但是图片里用到了Using filesort,因为position这个和name间隔问题导致没有遵守最左前缀，索引只用到了name,position排序只能用外部排序。这种情况尽量要用到索引排序,这里还有一特殊的排序（desc）Backward index scan，其实和asc差不多，效率略差，据说是mysql8.0出现的.

1642558843947

分页查询优化

对于一条分页 select * from employees limit 90000,5;
表示从表 employees 中取出从 10001 行开始的 10 行记录。看似只查询了 10 条记录，实际这条 SQL 是先读取 10010 条记录，然后抛弃前 10000 条记录，然后读到后面 10 条想要的数据。因此要查询一张大表比较靠后的数据，执行效率 是非常低的。
   
如果我们根据连续的自增主键排序呢
select * from employees where id > 90000 limit 5;
但是自增主键如果有断裂就会有问题
    
如果根据非自增主键呢，比如name字段（索引列）
select * from employees ORDER BY name limit 90000,5;
并没有走索引，因为select *,返回的结果集不在索引列上，需要扫描多颗索引树，还不如全表扫描，索引可以考虑返回结果集仅包含索引列，如下图，注意观察索引的使用和排序的类型。
explain select * from employees e inner join
    (
        select id from employees order by name limit 90000,10
        ) ed
on e.id =ed.id

1642560759145

join关联查询优化

-- 示例表

CREATE TABLE `t1` (
                      `id` int NOT NULL AUTO_INCREMENT,
                      `a` int DEFAULT NULL,
                      `b` int DEFAULT NULL,
                      PRIMARY KEY (`id`),
                      KEY `idx_a` (`a`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin;

create table t2 like t1;

-- 插入示例数据
-- t1 插入一百条记录

drop procedure if exists  insert_t1;
delimiter ;
create procedure insert_t1()
begin
    declare i int;
    set i = 1;
    while (i<=100)
        do
        insert into t1(a,b) value (i,i);
        set i=i+1;
        end while;
end;
delimiter ;
call insert_t1();

-- 插入示例数据
-- t2 插入10000条记录
drop procedure if exists  insert_t2;
delimiter ;
create procedure insert_t2()
begin
    declare i int;
    set i = 1;
    while (i<=10000)
        do
            insert into t2(a,b) value (i,i);
            set i=i+1;
        end while;
end;
delimiter ;
call insert_t2();

流程： 
上面sql的大致流程如下： 1. 把 t2 的所有数据放入到 join_buffer 中 2. 把表 t1 中每一行取出来，跟 join_buffer 中的数据做对比 3. 返回满足 join 条件的数据

驱动表解释：
inner join(内连)，优化器会选择小表作为驱动表，看下面这个sql,t2是驱动表，因为是先执行的，通过解释计划可以看t2先执行的，第二就是看rows(扫描行数)，驱动表会一行一行扫描。
    
BNL:（extra列 Using join buffer）
基于块的嵌套循环连接 Block Nested-Loop Join(BNL)算法 把驱动表的数据读入到 join_buffer 中，然后扫描被驱动表，把被驱动表每一行取出来跟 join_buffer 中的数据做对比。    

NLJ：   
嵌套循环连接 Nested-Loop Join(NLJ) 算法 一次一行循环地从第一张表（称为驱动表）中读取行，在这行数据中取到关联字段，根据关联字段在另一张表（被驱动 表）里取出满足条件的行，然后取出两张表的结果合集。
    
被驱动表的关联字段没索引为什么要选择使用 BNL 算法而不使用 Nested-Loop Join 呢？:
如果上面第二条sql使用 Nested-Loop Join，那么扫描行数为 100 * 10000 = 100万次，这个是磁盘扫描。 很显然，用BNL磁盘扫描次数少很多，相比于磁盘扫描，BNL的内存计算会快得多。 因此MySQL对于被驱动表的关联字段没索引的关联查询，一般都会使用 BNL 算法。如果有索引一般选择 NLJ 算法，有 索引的情况下 NLJ 算法比 BNL算法性能更高

1642574326134

具体优化策略：

对于关联sql的优化 关联字段加索引，让mysql做join操作时尽量选择NLJ算法 小表驱动大表，写多表连接sql时如果明确知道哪张表是小表可以用straight_join写法固定连接驱动方式，省去 mysql优化器自己判断的时间

straight_join解释：straight_join功能同join类似，但能让左边的表来驱动右边的表，能改表优化器对于联表查询的执 行顺序。 比如：select * from t2 straight_join t1 on t2.a = t1.a; 代表指定mysql选着 t2 表作为驱动表。
    straight_join只适用于inner join，并不适用于left join，right join。（因为left join，right join已经代表指 定了表的执行顺序） 
    尽可能让优化器去判断，因为大部分情况下mysql优化器是比人要聪明的。使用straight_join一定要慎重，因 为部分情况下人为指定的执行顺序并不一定会比优化引擎要靠谱。
  
对于小表定义的明确 在决定哪个表做驱动表的时候，应该是两个表按照各自的条件过滤，过滤完成之后，计算参与 join 的各个字段的总数据 量，数据量小的那个表，就是“小表”，应该作为驱动表。

in和exists的优化

其实就是小表驱动大表的问题

in:
结论：
    当B表的数据集小于A表的数据集时，in优于exists
    
    select * from A where id in (select id from B)
    #等价于： 
    for(select id from B)
    {  select * from A where A.id = B.id }

exists：
结论：
    当A表的数据集小于B表的数据集时，exists优于in 将主查询A的数据，放到子查询B中做条件验证，根据验证结果（true或false）来决定主查询的数据是否保留
    select * from A where exists (select 1 from B where B.id = A.id) 
    #等价于:  for(select * from A){ 
        select * from B where B.id = A.id  } 
	#A表与B表的ID字段应建立索引
        
    关于exists有个注意事项：
        1、EXISTS (subquery)只返回TRUE或FALSE,因此子查询中的SELECT * 也可以用		SELECT 1替换,官方说法是实际执行时会 忽略SELECT清单,因此没有区别 2、EXISTS子查询的	 实际执行过程可能经过了优化而不是我们理解上的逐条对比 3、EXISTS子查询往往也可以用JOIN来	  代替，何种最优需要具体问题具体分析

count(*)查询优化

‐‐ 临时关闭mysql查询缓存，为了查看sql多次执行的真实时间 
mysql> set global query_cache_size=0; 
mysql> set global query_cache_type=0; 
mysql> EXPLAIN select count(1) from employees; 
mysql> EXPLAIN select count(id) from employees; 
mysql> EXPLAIN select count(name) from employees; 
mysql> EXPLAIN select count(*) from employees;

四个sql的执行计划一样，说明这四个sql执行效率应该差不多,图就不贴了，sql是用employees这个表
    
结论：
    字段有索引：count(*)≈count(1)>count(字段)>count(主键 id) 
    //字段有索引，count(字段)统计走二级索引，二 级索引存储数据比主键索引少，所以count(字段)>count(主键 id) 
    
    字段无索引：count(*)≈count(1)>count(主键 id)>count(字段) //字段没有索引count(字段)统计走不了索引， count(主键 id)还可以走主键索引，所以count(主键 id)>count(字段) count(1)跟count(字段)执行过程类似，不过count(1)不需要取出字段统计，就用常量1做统计，count(字段)还需要取出 字段，所以理论上count(1)比count(字段)会快一点。 count(*) 是例外，mysql并不会把全部字段取出来，而是专门做了优化，不取值，按行累加，效率很高，所以不需要用 count(列名)或count(常量)来替代 count(*)。 
    
    为什么对于count(id)，mysql最终选择辅助索引而不是主键聚集索引？因为二级索引相对主键索引存储数据更少，检索 性能应该更高，mysql内部做了点优化(应该是在5.7版本才优化)。
    
   小知识：
    show table status 如果只需要知道表总行数的估计值可以用如下sql查询，性能很高

一些总结性资料

优化总结：

1、MySQL支持两种方式的排序filesort和index，Using index是指MySQL扫描索引本身完成排序。index

效率高，filesort效率低。

2、order by满足两种情况会使用Using index。

order by语句使用索引最左前列。
使用where子句与order by子句条件列组合满足索引最左前列。

3、尽量在索引列上完成排序，遵循索引建立（索引创建的顺序）时的最左前缀法则。

4、如果order by的条件不在索引列上，就会产生Using filesort。

5、能用覆盖索引尽量用覆盖索引

6、group by与order by很类似，其实质是先排序后分组，遵照索引创建顺序的最左前缀法则。对于group

by的优化如果不需要排序的可以加上order by null禁止排序。注意，where高于having，能写在where中

的限定条件就不要去having限定了。

Using filesort文件排序原理详解

filesort文件排序方式

单路排序：是一次性取出满足条件行的所有字段，然后在sort buffer中进行排序；用trace工具可

以看到sort_mode信息里显示< sort_key, additional_fields >或者< sort_key,

packed_additional_fields >

双路排序（又叫回表排序模式）：是首先根据相应的条件取出相应的排序字段和可以直接定位行

数据的行 ID，然后在 sort buffer 中进行排序，排序完后需要再次取回其它需要的字段；用trace工具

可以看到sort_mode信息里显示< sort_key, rowid >

MySQL 通过比较系统变量 max_length_for_sort_data(默认1024字节) 的大小和需要查询的字段总大小来

判断使用哪种排序模式。

如果字段的总长度小于max_length_for_sort_data ，那么使用单路排序模式；

如果字段的总长度大于max_length_for_sort_data ，那么使用双路排序模∙式

索引设计原则

1、代码先行，索引后上

不知大家一般是怎么给数据表建立索引的，是建完表马上就建立索引吗？

这其实是不对的，一般应该等到主体业务功能开发完毕，把涉及到该表相关sql都要拿出来分析之后再建立

索引。

2、联合索引尽量覆盖条件

比如可以设计一个或者两三个联合索引(尽量少建单值索引)，让每一个联合索引都尽量去包含sql语句里的

where、order by、group by的字段，还要确保这些联合索引的字段顺序尽量满足sql查询的最左前缀原

则。

3、不要在小基数字段上建立索引

索引基数是指这个字段在表里总共有多少个不同的值，比如一张表总共100万行记录，其中有个性别字段，

其值不是男就是女，那么该字段的基数就是2。

如果对这种小基数字段建立索引的话，还不如全表扫描了，因为你的索引树里就包含男和女两种值，根本没

法进行快速的二分查找，那用索引就没有太大的意义了。

一般建立索引，尽量使用那些基数比较大的字段，就是值比较多的字段，那么才能发挥出B+树快速二分查

找的优势来。

4、长字符串我们可以采用前缀索引

尽量对字段类型较小的列设计索引，比如说什么tinyint之类的，因为字段类型较小的话，占用磁盘空间也会

比较小，此时你在搜索的时候性能也会比较好一点。

当然，这个所谓的字段类型小一点的列，也不是绝对的，很多时候你就是要针对varchar(255)这种字段建立

索引，哪怕多占用一些磁盘空间也是有必要的。

对于这种varchar(255)的大字段可能会比较占用磁盘空间，可以稍微优化下，比如针对这个字段的前20个

字符建立索引，就是说，对这个字段里的每个值的前20个字符放在索引树里，类似于 KEY

index(name(20),age,position)。

此时你在where条件里搜索的时候，如果是根据name字段来搜索，那么此时就会先到索引树里根据name

字段的前20个字符去搜索，定位到之后前20个字符的前缀匹配的部分数据之后，再回到聚簇索引提取出来

完整的name字段值进行比对。

但是假如你要是order by name，那么此时你的name因为在索引树里仅仅包含了前20个字符，所以这个排

序是没法用上索引的， group by也是同理。所以这里大家要对前缀索引有一个了解。

5、where与order by冲突时优先where

在where和order by出现索引设计冲突时，到底是针对where去设计索引，还是针对order by设计索引？到

底是让where去用上索引，还是让order by用上索引?一般这种时候往往都是让where条件去使用索引来快速筛选出来一部分指定的数据，接着再进行排序。

因为大多数情况基于索引进行where筛选往往可以最快速度筛选出你要的少部分数据，然后做排序的成本可

能会小很多。

这里有一个索引优化的例子，适合背题

索引设计实战 以社交场景APP来举例，我们一般会去搜索一些好友，这里面就涉及到对用户信息的筛选，这里肯定就是对 用户user表搜索了，这个表一般来说数据量会比较大，我们先不考虑分库分表的情况，比如，我们一般会筛 选地区(省市)，性别，年龄，身高，爱好之类的，有的APP可能用户还有评分，比如用户的受欢迎程度评 分，我们可能还会根据评分来排序等等。 对于后台程序来说除了过滤用户的各种条件，还需要分页之类的处理，可能会生成类似sql语句执行： select xx from user where xx=xx and xx=xx order by xx limit xx,xx 对于这种情况如何合理设计索引了，比如用户可能经常会根据省市优先筛选同城的用户，还有根据性别去筛 选，那我们是否应该设计一个联合索引 (province,city,sex) 了？这些字段好像基数都不大，其实是应该的， 因为这些字段查询太频繁了。 假设又有用户根据年龄范围去筛选了，比如 where province=xx and city=xx and age>=xx and age<=xx，我们尝试着把age字段加入联合索引 (province,city,sex,age)，注意，一般这种范围查找的条件 都要放在最后，之前讲过联合索引范围之后条件的是不能用索引的，但是对于当前这种情况依然用不到age 这个索引字段，因为用户没有筛选sex字段，那怎么优化了？其实我们可以这么来优化下sql的写法：where province=xx and city=xx and sex in ('female','male') and age>=xx and age<=xx 对于爱好之类的字段也可以类似sex字段处理，所以可以把爱好字段也加入索引 (province,city,sex,hobby,age) 假设可能还有一个筛选条件，比如要筛选最近一周登录过的用户，一般大家肯定希望跟活跃用户交友了，这 样能尽快收到反馈，对应后台sql可能是这样： where province=xx and city=xx and sex in ('female','male') and age>=xx and age<=xx and latest_login_time>= xx 那我们是否能把 latest_login_time 字段也加入索引了？比如 (province,city,sex,hobby,age,latest_login_time) ，显然是不行的，那怎么来优化这种情况了？其实我们 可以试着再设计一个字段is_login_in_latest_7_days，用户如果一周内有登录值就为1，否则为0，那么我们 就可以把索引设计成 (province,city,sex,hobby,is_login_in_latest_7_days,age) 来满足上面那种场景了！ 一般来说，通过这么一个多字段的索引是能够过滤掉绝大部分数据的，就保留小部分数据下来基于磁盘文件 进行order by语句的排序，最后基于limit进行分页，那么一般性能还是比较高的。 不过有时可能用户会这么来查询，就查下受欢迎度较高的女性，比如sql：where sex = 'female' order by score limit xx,xx，那么上面那个索引是很难用上的，不能把太多的字段以及太多的值都用 in 语句拼接 到sql里的，那怎么办了？其实我们可以再设计一个辅助的联合索引，比如 (sex,score)，这样就能满足查询 要求了。 以上就是给大家讲的一些索引设计的思路了，核心思想就是，尽量利用一两个复杂的多字段联合索引，抗下 你80%以上的查询，然后用一两个辅助索引尽量抗下剩余的一些非典型查询，保证这种大数据量表的查询尽 可能多的都能充分利用索引，这样就能保证你的查询速度和性能了！

相关阅读:
wc
1.11考试
 diff
C++11新利器
 vimdiff
[学习笔记]多项式
 rev
[AH2017/HNOI2017]礼物
 tr
bzoj2555: SubString
原文地址：https://www.cnblogs.com/xiaoshahai/p/15822680.html

最新文章
luoguP5105 不强制在线的动态快速排序
 less
1.14模拟赛
 head
[学习笔记]长链剖分
 tail
简单的函数——Min_25筛
 tailf
[CQOI2015]选数
 cut

热门文章
施罗德数
 split
paste
[学习笔记]Min-25筛
 sort
[HEOI2014]逻辑翻译
 join
[HEOI2015]公约数数列
 uniq
P5028 Annihilate