    在orcale等数据库中可以使用partition 语句来解决,但在MySQL中就比较麻烦了。这次翻译的文章就是专门解决这个问题的

    这篇文章会用到行数(row number),我在原来的文章 MySQL-specific 和 generic techniques 中已经提到过如何为每个分组设置行数了。在这里我会使用与原来的文章中相同的表格,但会加入新的price 字段

    01 +--------+------------+-------+
    02 | type   | variety    | price |
    03 +--------+------------+-------+
    04 | apple  | gala       |  2.79 |
    05 | apple  | fuji       |  0.24 |
    06 | apple  | limbertwig |  2.87 |
    07 | orange | valencia   |  3.59 |
    08 | orange | navel      |  9.36 |
    09 | pear   | bradford   |  6.05 |
    10 | pear   | bartlett   |  2.14 |
    11 | cherry | bing       |  2.55 |
    12 | cherry | chelan     |  6.33 |
    13 +--------+------------+-------+



    1 +--------+----------+-------+
    2 | type   | variety  | price |
    3 +--------+----------+-------+
    4 | apple  | fuji     |  0.24 |
    5 | orange | valencia |  3.59 |
    6 | pear   | bartlett |  2.14 |
    7 | cherry | bing     |  2.55 |
    8 +--------+----------+-------+


    其中一个常用的方法是使用自连接(self-join),第一步根据type(apple, cherry etc)进行分组,并找出每组中price的最小值

    01 select type, min(price) as minprice
    02 from fruits
    03 group by type;
    04 +--------+----------+
    05 | type   | minprice |
    06 +--------+----------+
    07 | apple  |     0.24 |
    08 | cherry |     2.55 |
    09 | orange |     3.59 |
    10 | pear   |     2.14 |
    11 +--------+----------+


    01 select f.type, f.variety, f.price
    02 from (
    03    select type, min(price) as minprice
    04    from fruits group by type
    05 ) as x inner join fruits as f on f.type = x.type and f.price = x.minprice;
    07 +--------+----------+-------+
    08 | type   | variety  | price |
    09 +--------+----------+-------+
    10 | apple  | fuji     |  0.24 |
    11 | cherry | bing     |  2.55 |
    12 | orange | valencia |  3.59 |
    13 | pear   | bartlett |  2.14 |
    14 +--------+----------+-------+

    还可以使用相关子查询(correlated subquery)的方式来解决。这种方法在不同的mysql优化系统下,可能性能会有一点点下降,但这种方法会更直观一些。

    01 select type, variety, price
    02 from fruits
    03 where price = (select min(price) from fruits as f where f.type = fruits.type);
    04 +--------+----------+-------+
    05 | type   | variety  | price |
    06 +--------+----------+-------+
    07 | apple  | fuji     |  0.24 |
    08 | orange | valencia |  3.59 |
    09 | pear   | bartlett |  2.14 |
    10 | cherry | bing     |  2.55 |
    11 +--------+----------+-------+



    这个问题会稍微复杂一些。我们可以使用聚集函数(MIN(), MAX()等等)来找一行,但是找前几行不能直接使用这些函数,因为它们都只返回一个值。但这个问题还是可以解决的。


    01 select type, variety, price
    02 from fruits
    03 where price = (select min(price) from fruits as f where f.type = fruits.type)
    04    or price = (select min(price) from fruits as f where f.type = fruits.type
    05       and price > (select min(price) from fruits as f2 where f2.type = fruits.type));
    06 +--------+----------+-------+
    07 | type   | variety  | price |
    08 +--------+----------+-------+
    09 | apple  | gala     |  2.79 |
    10 | apple  | fuji     |  0.24 |
    11 | orange | valencia |  3.59 |
    12 | orange | navel    |  9.36 |
    13 | pear   | bradford |  6.05 |
    14 | pear   | bartlett |  2.14 |
    15 | cherry | bing     |  2.55 |
    16 | cherry | chelan   |  6.33 |
    17 +--------+----------+-------+



    1 select type, variety, price
    2 from fruits
    3 where (
    4    select count(*) from fruits as f
    5    where f.type = fruits.type and f.price <= fruits.price
    6 ) <= 2;


    使用 UNION

    如果已经为type, price设置了索引,而且在每个分组中去除的数据要多于包含的数据,一种非常高效的单次扫描的方法是将查询拆分成多个独立的查询(尤其对mysql,对其他的RDBMSs也有效),再使用UNION将结果拼到一起。mysql的写法如下:

    1 (select * from fruits where type = 'apple' order by price limit 2)
    2 union all
    3 (select * from fruits where type = 'orange' order by price limit 2)
    4 union all
    5 (select * from fruits where type = 'pear' order by price limit 2)
    6 union all
    7 (select * from fruits where type = 'cherry' order by price limit 2)

    Peter Zaistev写了相关的文章, 我在这里就不赘述了。如果这个方案满足你的要求,那它就是一个非常好的选择.

    注意:这里要使用UNION ALL,而不是UNION。后者会在合并的时候会将重复的条目清除掉。在我们的这个示例中没有去除重复的需求,所以我们告诉服务器不要清除重复,清除重复在这个问题中是无用的,而且会造成性能的大幅下降。


    但结果是数据表中很小一部分条目并且有索引用来排序的时候,使用UNION的方式是一个很好的选择。而当你要获取数据表中大部分条目时也有一种能达到线性时间的方法,那就是使用用户定义变量。这里我将介绍的仅仅是mysql中的用法。在我原来的博客在mysql中,如何为条目编号(How to number rows in MySQL)里介绍了它是怎么工作的:

    1 set @num := 0@type := '';
    2 select type, variety, price
    3 from (
    4    select type, variety, price,
    5       @num := if(@type = type, @num 11) as row_number,
    6       @type := type as dummy
    7   from fruits
    8   order by type, price
    9 ) as x where x.row_number <= 2;

    这个方法并不仅仅做单次扫描,子查询在后台创建临时表,然后通过一次扫描将数据填充进去,然后在临时表中选择数据用于主查询的WHERE语句。但即使是两次扫描,它的时间复杂度仍是O(n),这里n是表示数据表的行数。它远比上面的相关子查询的结果O(n ^ 2)要好许多, 这里的n表示的是分组中平均条目数 - 即使是中等规模的数据也会造成极差的性能。(假设每种水果中有5 varitey,那么就需要25次扫描)



    1 set @num := 0@type := '';
    3 select type, variety, price,
    4       @num := if(@type = type, @num 11) as row_number,
    5       @type := type as dummy
    6 from fruits
    7 group by type, price, variety
    8 having row_number <= 2;

    只要MySQL的GROUP BY语句符合标准,这个方式在理论上就是是可行。那么实际上可行吗?下面是我在MySQL 5.0.7的Windows 版上的结果

    01 +--------+----------+-------+------------+--------+
    02 | type   | variety  | price | row_number | dummy  |
    03 +--------+----------+-------+------------+--------+
    04 | apple  | gala     |  2.79 |          1 | apple  |
    05 | apple  | fuji     |  0.24 |          3 | apple  |
    06 | orange | valencia |  3.59 |          1 | orange |
    07 | orange | navel    |  9.36 |          3 | orange |
    08 | pear   | bradford |  6.05 |          1 | pear   |
    09 | pear   | bartlett |  2.14 |          3 | pear   |
    10 | cherry | bing     |  2.55 |          1 | cherry |
    11 | cherry | chelan   |  6.33 |          3 | cherry |
    12 +--------+----------+-------+------------+--------+

    可以看到,这已经和结果很接近了。他返回了每个分组的第一行和第三行,结果并没有按照price的升序进行排列。当时HAVING 语句要求row_number不应当大于2。接下来是5.0.24a 在ubuntu上的结果:

    01 +--------+------------+-------+------------+--------+
    02 | type   | variety    | price | row_number | dummy  |
    03 +--------+------------+-------+------------+--------+
    04 | apple  | fuji       |  0.24 |          1 | apple  |
    05 | apple  | gala       |  2.79 |          1 | apple  |
    06 | apple  | limbertwig |  2.87 |          1 | apple  |
    07 | cherry | bing       |  2.55 |          1 | cherry |
    08 | cherry | chelan     |  6.33 |          1 | cherry |
    09 | orange | valencia   |  3.59 |          1 | orange |
    10 | orange | navel      |  9.36 |          1 | orange |
    11 | pear   | bartlett   |  2.14 |          1 | pear   |
    12 | pear   | bradford   |  6.05 |          1 | pear   |
    13 +--------+------------+-------+------------+--------+


    使用这种技术的结果很难确定,主要是因为这里涉及的技术是你和我都不能直接接触的,例如MySQL在Group的时候使用哪个索引。如果你仍需要使用它 - 我知道很多人已经用了,因为我告诉了他们 - 你还是可以用的。我们正在进入SQL的真正领域,但是上面的结果是在没有设置索引的情况下得到的。我们现在看看了设置了索引之后group的结果是什么。

    1 alter table fruits add key(type, price);


    1 set @num := 0@type := '';
    3 select type, variety, price,
    4       @num := if(@type = type, @num 11) as row_number,
    5       @type := type as dummy
    6 from fruits force index(type)
    7 group by type, price, variety
    8 having row_number <= 2;


    01 +--------+----------+-------+------------+--------+
    02 | type   | variety  | price | row_number | dummy  |
    03 +--------+----------+-------+------------+--------+
    04 | apple  | fuji     |  0.24 |          1 | apple  |
    05 | apple  | gala     |  2.79 |          2 | apple  |
    06 | cherry | bing     |  2.55 |          1 | cherry |
    07 | cherry | chelan   |  6.33 |          2 | cherry |
    08 | orange | valencia |  3.59 |          1 | orange |
    09 | orange | navel    |  9.36 |          2 | orange |
    10 | pear   | bartlett |  2.14 |          1 | pear   |
    11 | pear   | bradford |  6.05 |          2 | pear   |
    12 +--------+----------+-------+------------+--------+

    现在我们得到了我们想要的结果了,而且没有文件排序(filesort)和临时表。还有一种方法就是将variety提出到GROUP BY之外,这样它就可以使用自己的索引。因为这个查询是一个从分组中查询非分组字段的查询,它只能在 ONLY_FULL_GROUP_BY 模式关闭(链接)的情况下才能起作用。但是在没有特殊原因的情况下,我不建议你这么做。




    我们这里介绍了集中方法去解决“每个分组中最大的条目”这类问题已经进一步扩展到查询每组中前N个条目的方法。之后我们深入探讨了一些MySQL特定的技术,这些技术看起来有一些傻和笨。但是如果你需要榨干服务器的最后一点性能,你就需要知道什么时候去打破规则。对于那些认为这是MySQL本身的问题的人,我要说这不是,我曾经看到过使用其他平台的人也在做着同样的事情,如SQL Server。在每个平台上都会有很多特殊的小技巧和花招,使用他们的人必须去适应它。

    原文出处: http://my.oschina.net/u/1032146/blog/149300

