• Using temporary与Using filesort


    Using temporary

    Using temporary表示由于排序没有走索引、使用union、子查询连接查询、使用某些视图等原因(详见https://dev.mysql.com/doc/refman/5.6/en/internal-temporary-tables.html),因此创建了一个内部临时表。注意这里的临时表可能是内存上的临时表,也有可能是硬盘上的临时表,理所当然基于内存的临时表的时间消耗肯定要比基于硬盘的临时表的实际消耗小。

    查看sql执行时使用的是内存临时表还是硬盘临时表,需要使用如下命令:

    mysql> show global status like '%tmp%';
    +-------------------------+-------+
    | Variable_name           | Value |
    +-------------------------+-------+
    | Created_tmp_disk_tables | 0     |
    | Created_tmp_files       | 5     |
    | Created_tmp_tables      | 11    |
    +-------------------------+-------+
    

    Created_tmp_tables表示mysql创建的内部临时表的总数(包括内存临时表和硬盘临时表);Created_tmp_disk_tables表示mysql创建的硬盘临时表的总数。

    当mysql需要创建临时表时,选择内存临时表还是硬盘临时表取决于参数tmp_table_sizemax_heap_table_size,内存临时表的最大容量为tmp_table_sizemax_heap_table_size值的最小值,当所需临时表的容量大于两者的最小值时,mysql就会使用硬盘临时表存放数据。

    用户可以在mysql的配置文件里修改该两个参数的值,两者的默认值均为16M。

    tmp_table_size = 16M
    max_heap_table_size = 16M

    查看tmp_table_sizemax_heap_table_size值:

    mysql> show global variables like 'max_heap_table_size';
    +---------------------+----------+
    | Variable_name       | Value    |
    +---------------------+----------+
    | max_heap_table_size | 16777216 |
    +---------------------+----------+
    
    mysql> show global variables like 'tmp_table_size';
    +----------------+----------+
    | Variable_name  | Value    |
    +----------------+----------+
    | tmp_table_size | 16777216 |
    +----------------+----------+
    如果ORDER BY或GROUP BY中的字段都来自其他的表而非连接顺序中的第一个表的话,就会创建一个临时表了。

    Using filesort

    如果问Using filesort是什么意思,大多数人应该会回答“基于硬盘的排序”或者“数据太多不适合内存,所以在硬盘上排序”。然而这些解释是错误的。

    Using filesort仅仅表示没有使用索引的排序,事实上filesort这个名字很糟糕,并不意味着在硬盘上排序,filesort与文件无关。因此消除Using filesort的方法就是让查询sql的排序走索引。

    filesort使用的算法是QuickSort,即对需要排序的记录生成元数据进行分块排序,然后再使用mergesort方法合并块。其中filesort可以使用的内存空间大小为参数sort_buffer_size的值,默认为2M。当排序记录太多sort_buffer_size不够用时,mysql会使用临时文件来存放各个分块,然后各个分块排序后再多次合并分块最终全局完成排序。

    mysql> show global variables like 'sort_buffer_size';
    +------------------+--------+
    | Variable_name    | Value  |
    +------------------+--------+
    | sort_buffer_size | 262144 |
    +------------------+--------+
    

      Sort_merge_passes表示filesort执行过的文件分块合并次数的总和,如果该值比较大,建议增大sort_buffer_size的值。

    mysql> show global status like '%sort%';
    +-------------------+---------+
    | Variable_name     | Value   |
    +-------------------+---------+
    | Sort_merge_passes | 226     |
    | Sort_range        | 0       |
    | Sort_rows         | 1384911 |
    | Sort_scan         | 6       |
    +-------------------+---------+
    

      

    filesort排序方式

    filesort使用的排序方法有两种:

    第一种方法是对需要排序的记录生成<sort_key,rowid>的元数据进行排序,该元数据仅包含排序字段和rowid。排序完成后只有按字段排序的rowid,因此还需要通过rowid进行回表操作获取所需要的列的值,可能会导致大量的随机IO读消耗;

    第二种方法是是对需要排序的记录生成<sort_key,additional_fields>的元数据,该元数据包含排序字段和需要返回的所有列。排序完后不需要回表,但是元数据要比第一种方法长得多,需要更多的空间用于排序。

    参数max_length_for_sort_data字段用于控制filesort使用的排序方法,当所有需要排序记录的字段数量总和小于max_length_for_sort_data时使用第二种算法,否则会用第一种算法。该值的默认值为1024。

    mysql> show global variables like 'max_length_for_sort_data';
    +--------------------------+-------+
    | Variable_name            | Value |
    +--------------------------+-------+
    | max_length_for_sort_data | 1024  |
    +--------------------------+-------+
    
    mysql> set global max_length_for_sort_data = 1024;
    

      

     在排序的语句中都出现了Using filesort,字面意思可能会被理解为:使用文件进行排序或中文件中进行排序。实际上这是不正确的,这是一个让人产生误解的词语。
    当我们试图对一个没有索引的字段进行排序时,就是filesoft。它跟文件没有任何关系,实际上是内部的一个快速排序。

     
  • 相关阅读:
    3.流程控制语句
    pandas数据处理(一)pymongo数据库量大插入时去重速度慢
    windows下载安装redis
    Scrapy(一)爬知乎所有用户信息
    Mongodb去除重复的数据,pymongo去重
    selenium爬虫报错:Message: stale element reference: element is not attached to the page document 促成1分钟爬完斗鱼主播信息。
    用pyspider爬斗鱼主播信息
    曼城新闻情报站(二)Django框架的爬虫
    曼城新闻情报站(一)爬取3大网站的曼城新闻
    Beautiful Soup多线程爬取斗鱼所有主播信息(改良版)
  • 原文地址:https://www.cnblogs.com/flzs/p/14242151.html
Copyright © 2020-2023  润新知