• MySQL索引优化案例浅析


    MySQL是关系型数据库的一种,查询功能强,数据一致性高,数据安全性高,支持二级索引.但是性能比起非关系型数据库稍弱,特别是百万级以上的数据,很容易出现查询慢的现象.这时候要分析慢的原因,一般情况下是程序员的SQL写的烂,或者是没有索引,或者是索引失效等原因导致的.

    案例分析:

    场景一:订单导入,通过交易号避免重复导单

    业务逻辑:订单导入时,为了避免重复导单,一般会通过交易号去数据库中查询,判断该订单是否已经存在.

    最基础的sql语句:

    mysql> select * from itdragon_order_list where transaction_id = "81X97310V32236260E";
    +-------+--------------------+-------+------+----------+--------------+----------+------------------+-------------+-------------+------------+---------------------+
    | id    | transaction_id     | gross | net  | stock_id | order_status | descript | finance_descript | create_type | order_level | input_user | input_date          |
    +-------+--------------------+-------+------+----------+--------------+----------+------------------+-------------+-------------+------------+---------------------+
    | 10000 | 81X97310V32236260E |   6.6 | 6.13 |        1 |           10 | ok       | ok               | auto        |           1 | itdragon   | 2017-08-18 17:01:49 |
    +-------+--------------------+-------+------+----------+--------------+----------+------------------+-------------+-------------+------------+---------------------+
    
    mysql> explain select * from itdragon_order_list where transaction_id = "81X97310V32236260E";
    +----+-------------+---------------------+------------+------+---------------+------+---------+------+------+----------+-------------+
    | id | select_type | table               | partitions | type | possible_keys | key  | key_len | ref  | rows | filtered | Extra       |
    +----+-------------+---------------------+------------+------+---------------+------+---------+------+------+----------+-------------+
    |  1 | SIMPLE      | itdragon_order_list | NULL       | ALL  | NULL          | NULL | NULL    | NULL |    3 |    33.33 | Using where |
    +----+-------------+---------------------+------------+------+---------------+------+---------+------+------+----------+-------------+

     sql语句和查询都没有问题,但是功能一旦上线,查询慢的问题就迎面而来,几百万,几千万的订单,用全表扫描???那就完了....

    怎么知道该sql语句是全表扫描?

    通过desc命令和explain命令(功能是一样的)可以清楚MySQL是如何处理sql语句的,打印的内容分别是:

    id : 查询序列号为1。
    select_type : 查询类型是简单查询,简单的select语句没有union和子查询。
    table : 表是 itdragon_order_list。
    partitions : 没有分区。
    type : 连接类型,all表示采用全表扫描的方式。
    possible_keys : 可能用到索引为null。
    key : 实际用到索引是null。
    key_len : 索引长度当然也是null。
    ref : 没有哪个列或者参数和key一起被使用。
    Extra : 使用了where查询。
    因为数据库中只有三条数据,所以rows和filtered的信息作用不大。这里需要重点了解的是type为ALL,全表扫描的性能是最差的,假设数据库中有几百万条数据,在没有索引的帮助下会异常卡顿。

    初步优化:为transaction_id创建索引

    mysql> create unique index idx_order_transaID on itdragon_order_list (transaction_id);
    mysql> explain select * from itdragon_order_list where transaction_id = "81X97310V32236260E";
    +----+-------------+---------------------+------------+-------+--------------------+--------------------+---------+-------+------+----------+-------+
    | id | select_type | table               | partitions | type  | possible_keys      | key                | key_len | ref   | rows | filtered | Extra |
    +----+-------------+---------------------+------------+-------+--------------------+--------------------+---------+-------+------+----------+-------+
    |  1 | SIMPLE      | itdragon_order_list | NULL       | const | idx_order_transaID | idx_order_transaID | 453     | const |    1 |      100 | NULL  |
    +----+-------------+---------------------+------------+-------+--------------------+--------------------+---------+-------+------+----------+-------+

    这里创建的索引是唯一索引,而非普通索引。
    唯一索引打印的type值是const。表示通过索引一次就可以找到。即找到值就结束扫描返回查询结果。
    普通索引打印的type值是ref。表示非唯一性索引扫描。找到值还要继续扫描,直到将索引文件扫描完为止。
    显而易见,const的性能要远高于ref。并且根据业务逻辑来判断,创建唯一索引是合情合理的。

    再次优化:覆盖索引

    mysql> explain select transaction_id from itdragon_order_list where transaction_id = "81X97310V32236260E";
    +----+-------------+---------------------+------------+-------+--------------------+--------------------+---------+-------+------+----------+-------------+
    | id | select_type | table               | partitions | type  | possible_keys      | key                | key_len | ref   | rows | filtered | Extra       |
    +----+-------------+---------------------+------------+-------+--------------------+--------------------+---------+-------+------+----------+-------------+
    |  1 | SIMPLE      | itdragon_order_list | NULL       | const | idx_order_transaID | idx_order_transaID | 453     | const |    1 |      100 | Using index |
    +----+-------------+---------------------+------------+-------+--------------------+--------------------+---------+-------+------+----------+-------------+

    这里将select * from 改为了 select transaction_id from 后
    Extra 显示 Using index,表示该查询使用了覆盖索引,这是一个非常好的消息,说明该sql语句的性能很好。若提示的是Using filesort(使用内部排序)和Using temporary(使用临时表)则表明该sql需要立即优化了。
    根据业务逻辑来的,查询结构返回transaction_id 是可以满足业务逻辑要求的。

    场景二,订单管理页面,通过订单级别和录入时间排序

    业务逻辑:优先处理订单级别高,录入时间长的订单。
    既然是排序,首先想到的应该是order by, 还有一个可怕的 Using filesort 等着你。

    最基础的sql语句

    mysql> explain select * from itdragon_order_list order by order_level,input_date;
    +----+-------------+---------------------+------------+------+---------------+------+---------+------+------+----------+----------------+
    | id | select_type | table               | partitions | type | possible_keys | key  | key_len | ref  | rows | filtered | Extra          |
    +----+-------------+---------------------+------------+------+---------------+------+---------+------+------+----------+----------------+
    |  1 | SIMPLE      | itdragon_order_list | NULL       | ALL  | NULL          | NULL | NULL    | NULL |    3 |      100 | Using filesort |
    +----+-------------+---------------------+------------+------+---------------+------+---------+------+------+----------+----------------+

    首先,采用全表扫描就不合理,还使用了文件排序Using filesort,更加拖慢了性能。
    MySQL在4.1版本之前文件排序是采用双路排序的算法,由于两次扫描磁盘,I/O耗时太长。后优化成单路排序算法。其本质就是用空间换时间,但如果数据量太大,buffer的空间不足,会导致多次I/O的情况。其效果反而更差。与其找运维同事修改MySQL配置,还不如自己乖乖地建索引。

    初步优化:为order_level,input_date 创建复合索引

    mysql> create index idx_order_levelDate on itdragon_order_list (order_level,input_date);
    mysql> explain select * from itdragon_order_list order by order_level,input_date;
    +----+-------------+---------------------+------------+------+---------------+------+---------+------+------+----------+----------------+
    | id | select_type | table               | partitions | type | possible_keys | key  | key_len | ref  | rows | filtered | Extra          |
    +----+-------------+---------------------+------------+------+---------------+------+---------+------+------+----------+----------------+
    |  1 | SIMPLE      | itdragon_order_list | NULL       | ALL  | NULL          | NULL | NULL    | NULL |    3 |      100 | Using filesort |
    +----+-------------+---------------------+------------+------+---------------+------+---------+------+------+----------+----------------+

    创建复合索引后你会惊奇的发现,和没创建索引一样???都是全表扫描,都用到了文件排序。是索引失效?还是索引创建失败?我们试着看看下面打印情况

    mysql> explain select order_level,input_date from itdragon_order_list order by order_level,input_date;
    +----+-------------+---------------------+------------+-------+---------------+---------------------+---------+------+------+----------+-------------+
    | id | select_type | table               | partitions | type  | possible_keys | key                 | key_len | ref  | rows | filtered | Extra       |
    +----+-------------+---------------------+------------+-------+---------------+---------------------+---------+------+------+----------+-------------+
    |  1 | SIMPLE      | itdragon_order_list | NULL       | index | NULL          | idx_order_levelDate | 68      | NULL |    3 |      100 | Using index |
    +----+-------------+---------------------+------------+-------+---------------+---------------------+---------+------+------+----------+-------------+

    select * from 换成了 select order_level,input_date from 后。type从all升级为index,表示(full index scan)全索引文件扫描,Extra也显示使用了覆盖索引。可是不对啊!!!!检索虽然快了,但返回的内容只有order_level和input_date 两个字段,让业务同事怎么用?难道把每个字段都建一个复合索引?
    MySQL没有这么笨,可以使用force index 强制指定索引。在原来的sql语句上修改 force index(idx_order_levelDate) 即可。

    index(idx_order_levelDate) order by order_level,input_date;
    +----+-------------+---------------------+------------+-------+---------------+---------------------+---------+------+------+----------+-------+
    | id | select_type | table               | partitions | type  | possible_keys | key                 | key_len | ref  | rows | filtered | Extra |
    +----+-------------+---------------------+------------+-------+---------------+---------------------+---------+------+------+----------+-------+
    |  1 | SIMPLE      | itdragon_order_list | NULL       | index | NULL          | idx_order_levelDate | 68      | NULL |    3 |      100 | NULL  |
    +----+-------------+---------------------+------------+-------+---------------+---------------------+---------+------+------+----------+-------+

    再次优化:订单级别真的要排序么?

    其实给订单级别排序意义并不大,给订单级别添加索引意义也不大。因为order_level的值可能只有,低,中,高,加急,这四种。对于这种重复且分布平均的字段,排序和加索引的作用不大。
    我们能否先固定 order_level 的值,然后再给 input_date 排序?如果查询效果明显,是可以推荐业务同事使用该查询方式。

    mysql> explain select * from itdragon_order_list where order_level=3 order by input_date;
    +----+-------------+---------------------+------------+------+---------------------+---------------------+---------+-------+------+----------+-----------------------+
    | id | select_type | table               | partitions | type | possible_keys       | key                 | key_len | ref   | rows | filtered | Extra                 |
    +----+-------------+---------------------+------------+------+---------------------+---------------------+---------+-------+------+----------+-----------------------+
    |  1 | SIMPLE      | itdragon_order_list | NULL       | ref  | idx_order_levelDate | idx_order_levelDate | 5       | const |    1 |      100 | Using index condition |
    +----+-------------+---------------------+------------+------+---------------------+---------------------+---------+-------+------+----------+-----------------------+

    和之前的sql比起来,type从index 升级为 ref(非唯一性索引扫描)。索引的长度从68变成了5,说明只用了一个索引。ref也是一个常量。Extra 为Using index condition 表示自动根据临界值,选择索引扫描还是全表扫描。总的来说性能远胜于之前的sql。

    上面两个案例只是快速入门,我们需严记一点:优化是基于业务逻辑来的。绝对不能为了优化而擅自修改业务逻辑。如果能修改当然是最好的。

  • 相关阅读:
    js压缩、混淆和加密 Alan
    与、或、异或运算 Alan
    Hello world Alan
    abstract class和interface有什么区别?
    接口是否可继承接口? 抽像类是否可实现(implements)接口? 抽像类是否可继承实体类(concrete class)?
    启动一个线程是用run()还是start()?
    数组有没有length()这个方法? String有没有length()这个方法?
    swtich是否能作用在byte上,是否能作用在long上,是否能作用在String上?
    当一个线程进入一个对象的一个synchronized方法后,其它线程是否可进入此对象的其它方法?
    简要谈一下您对微软.NET 构架下remoting和webservice两项技术的理解以及实际中的应用。
  • 原文地址:https://www.cnblogs.com/zhaijihai/p/10273620.html
Copyright © 2020-2023  润新知