第8章 SQL高级处理:8-1 窗口函数
● 窗口函数可以进行排序、生成序列号等一般的聚合函数无法实现的高级操作。
● 理解PARTITION BY和ORDER BY这两个关键字的含义十分重要。
■ 什么是窗口函数
截至 2016 年 5 月,Oracle、SQL Server、DB2、PostgreSQL 的最新版本都已经支持了该功能,但是 MySQL 的5.7版本还是不支持窗口函数。
OLAP 是 OnLine Analytical Processing 的简称,意思是对数据库数据进行实时分析处理。 例如,市场分析、创建财务报表、创建计划等日常性商务工作。
窗口函数就是为了实现 OLAP 而添加的标准 SQL 功能。在Oracle和 SQL Server中称为分析函数。
■ 窗口函数的语法
窗口函数大体可以分为以下两种。
① 能够作为窗口函数的聚合函数( SUM、 AVG、 COUNT、 MAX、 MIN)
② RANK、 DENSE_RANK、 ROW_NUMBER 等专用窗口函数
■ 语法的基本使用方法——使用RANK函数
正如其名称所示, RANK 是用来计算记录排序的函数。
例如,对于之前使用过的 Product 表中的 8 件商品,让我们根据不同的商品种类(product_type),按照销售单价(sale_price)从低到高的顺序排序,结果如下所示。
PARTITION BY 在横向上对表进行分组,而 ORDER BY决定了纵向排序的规则。
ORDER BY 能够指定按照哪一列、何种顺序进行排序。可以通过关键字ASC/DESC 来指定升序和降序。
省略该关键字时会默认按照 ASC,也就是升序进行排序。
通过 PARTITION BY 分组后的记录集合称为窗口。此处的窗口并非“窗户”的意思,而是代表范围。
■ 无需指定PARTITION BY
使用窗口函数时起到关键作用的是 PARTITION BY 和 GROUP BY。
其中, PARTITION BY 并不是必需的,也就是将整个表作为一个大的窗口来使用。
■ 专用窗口函数的种类
● RANK函数
计算排序时,如果存在相同位次的记录,则会跳过之后的位次。
例)有 3 条记录排在第 1 位时:1 位、1 位、1 位、4 位……
● DENSE_RANK函数
同样是计算排序,即使存在相同位次的记录,也不会跳过之后的位次。
例)有 3 条记录排在第 1 位时:1 位、1 位、1 位、2 位……
● ROW_NUMBER函数
赋予唯一的连续位次。
例)有 3 条记录排在第 1 位时:1 位、2 位、3 位、4 位……
除此之外,各 DBMS 还提供了各自特有的窗口函数。上述 3 个函数(对于支持窗口函数的 DBMS 来说)在所有的 DBMS 中都能够使用。
■ 窗口函数的适用范围
窗口函数只能书写在一个特定的位置,这个位置就是 SELECT 子句之中。
反过来说,就是这类函数不能在WHERE 子句或者 GROUP BY 子句中使用。
在 SELECT 子句之外“使用窗口函数是没有意义的”,所以在语法上才会有这样的限制。
■ 作为窗口函数使用的聚合函数
所有的聚合函数都能用作窗口函数,其语法和专用窗口函数完全相同。
在按照时间序列的顺序,计算各个时间的销售额总额等的时候,通常都会使用这种称为累计的统计方法。
使用其他聚合函数时的操作逻辑也和本例相同。例如,使用 AVG 来代替 SELECT 语句中的 SUM(代码清单 8-5)。
像这样以“自身记录(当前记录)”作为基准进行统计,就是将聚合函数当作窗口函数使用时的最大特征。
■ 计算移动平均
窗口函数就是将表以窗口为单位进行分割,并在其中进行排序的函数。
其实其中还包含在窗口中指定更加详细的汇总范围的备选功能,该备选功能中的汇总范围称为框架。
其语法如代码清单 8-6 所示,需要在 ORDER BY 子句之后使用指定范围的关键字。
●指定框架(汇总范围)
这里我们使用了 ROWS(“行”)和 PRECEDING(“之前”)两个关键
字,将框架指定为“截止到之前 ~ 行”,因此“ROWS 2 PRECEDING”
就是将框架指定为“截止到之前 2 行”,也就是将作为汇总对象的记录限
定为如下的“最靠近的 3 行”。
● 自身(当前记录)
● 之前1行的记录
● 之前2行的记录
也就是说,由于框架是根据当前记录来确定的,因此和固定的窗口不同,其范围会随着当前记录的变化而变化。
这样的统计方法称为移动平均(moving average)。由于这种方法在希望实时把握“最近状态”时非常方便,因此常常会应用在对股市趋势的实时跟踪当中。
使用关键字 FOLLOWING(“之后”)替换 PRECEDING,就可以指定“截止到之后 ~ 行”作为框架了。
●将当前记录的前后行作为汇总对象
具体来说,就是将如下 3 行作为汇总对象来进行计算
● 之前1行的记录
● 自身(当前记录)
● 之后1行的记录
■ 两个ORDER BY
OVER 子句中的 ORDER BY 只是用来决定窗口函数按照什么样的顺序进行计算的,对结果的排列顺序并没有影响。
那么,如何才能让记录切实按照 ranking 列的升序进行排列呢?
答案非常简单。那就是在 SELECT 语句的最后,使用 ORDER BY子句进行指定(代码清单 8-9)。这样就能保证 SELECT 语句的结果中
记录的排列顺序了,除此之外也没有其他办法了。