group by实现原理及其作用

group by实现原理及其作用

mysql中group by实现方式有三种，松散索引，紧凑索引，临时文件（文件排序）。

在网上看了相关的介绍，大部分介绍都比较晦涩难懂，这里说下我的理解。

在学习SQL优化时，我们都知道可以对group by进行优化的方式就是对group by引用的字段建立索引。当group by引用多个字段时，我们建立的相应的索引也应包含多个字段。

对group by操作优化的原理就是让mysql利用索引，而避免进行建立临时表，进而进行文件排序（group by的第三种实现方式）。

对于group by引用的多个字段，需满足于所建立索引的最左前缀索引，否则进行group by操作时，无法利用索引。在利用索引时，group by可根据索引，即可对数据分组，此时完全不用去

访问表的数据值（索引健对应的数据）。这种实现方式就是利用松散索引。

当group by引用的字段无法构成所建索引的最左前缀索引时，也就是说group by不能利用索引时。如何where语句（如果有的话）弥补了这种差距，比如：group by

引用的字段为（c2，c3），而索引为（c1，c2，c3）。此时如果where语句限定了c1=a（某一个值），那么此时mysql的执行过程为先根据where语句进行一次选择，

对选出来的结果集，可以利用索引。这种方式，从整体上来说，group by并没有利用索引，但是从过程来说，在选出的结果中利用了索引，这种方式就是紧凑索引。

这种方式，mysql的执行计划为using where,use index。而松散索引的执行计划为using index for group by。

如果mysql如论如何都不能利用索引时，此时mysql将读取所有的数据建立临时表，对文件进行排序，完成分组操作。

关于group的作用：

满足于我们针对某些字段进行分组，然后在组内对多行数据进行处理（计算行数，计算max，min等等）这样的需求。group by返回的数据是有序的。

如果我们对数据进行分组后，要输出（select）其所有（多）行的数据，此时是无法实现的。根据版本的不同，可能会输出第一行数据，可能会保错。

相关链接 http://www.51testing.com/html/52/n-229952.html
相关阅读:
[LeetCode]Remove Duplicates from Sorted Array
二叉树中和为某一值的路径
 机器学习基石笔记：Homework #2 Decision Stump相关习题
 机器学习基石笔记：08 Noise and Error
机器学习基石笔记：07 The VC Dimension
机器学习基石笔记：06 Theory of Generalization
机器学习基石笔记：05 Training versus Testing
正交矩阵、EVD、SVD
win10安装ubuntu16.04及后续配置
 chmod命令相关
原文地址：https://www.cnblogs.com/gulingjingguai/p/9484275.html