Chapter 5 Table Expressions
一个表表达式(table expression)是一个命名的查询表达式,代表一个有效的关系表。SQL Server包括4种表表达式:派生表(derived tables)、公用表表达式(common table expressions (CTEs),)、视图(views)、内联表值函数(inline table-valued functions (inline TVFs))。使用表表达式的好处通常在于逻辑层面而非性能。
派生表(derived tables)
举个例子先:
SELECT *
FROM (SELECT custid, companyname
FROM Sales.Customers
WHERE country = N'USA') AS USACusts;
在这里你用了一个查询来定义了一个叫USACusts的派生表,它只存活于外部查询中,也就是当外部查询结束了,它也没了。
想用一个查询定义一个表表达式,这个查询必须满足以下几点:
1.Order is not guaranteed(不保证查出来的结果集有顺序,也就是说不能用ORDER BY,除非是用TOP或者OFFSET的时候).
2.All columns must have names.
3.All column names must be unique.这种情况通常发生在联接两个表的时候,如果两个表有相同名字的列,那么在SELECT中要分别给他们定义别名。
其实以上几点都基于这么一个事实:一个表表达式代表了一个关系。
本来需要写两遍某个表达式的SQL:
SELECT
YEAR(orderdate) AS orderyear,
COUNT(DISTINCT custid) AS numcusts
FROM Sales.Orders
GROUP BY YEAR(orderdate);
现在可以只写一遍:
SELECT orderyear, COUNT(DISTINCT custid) AS numcusts
FROM (SELECT YEAR(orderdate) AS orderyear, custid
FROM Sales.Orders) AS D
GROUP BY orderyear;
之前说过,表表达式只是逻辑层面,SQL Server在执行时还是会把表表达式扩展为第一个要写两遍的那种形式。
关于用AS定义列名,还有另一种语法:
SELECT orderyear, COUNT(DISTINCT custid) AS numcusts
FROM (SELECT YEAR(orderdate), custid
FROM Sales.Orders) AS D(orderyear, custid)
GROUP BY orderyear;
但作者不推荐这种写法,因为不是很清晰。但是如果不再修改表表达式,只是拿它当一个黑箱使用,那么也许你可以这么写(因为你只关心列名是什么)。
当然,也可以嵌套多层派生表,如:
SELECT orderyear, numcusts
FROM (SELECT orderyear, COUNT(DISTINCT custid) AS numcusts
FROM (SELECT YEAR(orderdate) AS orderyear, custid
FROM Sales.Orders) AS D1
GROUP BY orderyear) AS D2
WHERE numcusts > 70;
但作者不建议这样,因为他说这样会problematic,还不如“写两遍”的写法:
SELECT YEAR(orderdate) AS orderyear, COUNT(DISTINCT custid) AS numcusts
FROM Sales.Orders
GROUP BY YEAR(orderdate)
HAVING COUNT(DISTINCT custid) > 70;
如果你想在FROM子句中定义多个派生表,然后把他们Join一下,是可以的,但是你不能:比如先定义好一个派生表叫A,然后再直接LEFT OUTER JOIN A(也就是不能refer to它的多个实例,只能一模一样的再重新写一遍)。
Common table expressions (CTEs)
要定义一个CTE:
WITH <CTE_Name>[(<target_column_list>)]
AS
(
<inner_query_defining_CTE>
)
<outer_query_against_CTE>;
举个例子:
WITH USACusts AS
(
SELECT custid, companyname
FROM Sales.Customers
WHERE country = N'USA'
)
SELECT * FROM USACusts;
与派生表一样,当outer query完成时,CTE结束生命。
用CTE来完成刚才说的“嵌套多层的派生表”,可读性会更好一些:
WITH C1 AS
(
SELECT YEAR(orderdate) AS orderyear, custid
FROM Sales.Orders
),
C2 AS
(
SELECT orderyear, COUNT(DISTINCT custid) AS numcusts
FROM C1
GROUP BY orderyear
)
SELECT orderyear, numcusts
FROM C2
WHERE numcusts > 70;
也就是说后定义的CTE可以引用之前定义的CTE。
同样地,CTE可以解决之前“在FROM中无法引用同一个派生表的多个实例”的问题。但最终SQL Server还是会多次扫描同一个表,如果你介意性能的话,可以把结果存到一个临时表或者表变量。
定义一个Recursive CTEs(递归CTE)如下:
WITH <CTE_Name>[(<target_column_list>)]
AS
(
<anchor_member>
UNION ALL
<recursive_member>
)
<outer_query_against_CTE>;
与正常CTE定义的唯一区别只在于AS括号里面的查询。<anchor_member>是第一次调用返回的结果,<recursive_member>是之后每一次调用的结果,直到为空。举个例子,如果你想得到一个员工的所有下属(直接或非直接),那么就:
WITH EmpsCTE AS
(
SELECT empid, mgrid, firstname, lastname
FROM HR.Employees
WHERE empid = 2
UNION ALL
SELECT C.empid, C.mgrid, C.firstname, C.lastname
FROM EmpsCTE AS P
JOIN HR.Employees AS C
ON C.mgrid = P.empid
)
SELECT empid, mgrid, firstname, lastname
FROM EmpsCTE;
得到结果:
注意上面结果中mgrid是指这个人的manager的empid是多少。第一次调用就是返回第一行,这个结果作为第二次调用里面的EmpsCTE这个玩意儿,于是第二次调用返回第2,第3行,再第三次调用用第二次调用的结果集....以此类推。
Views(视图)
与上面的两种表表达式不同,Views和inline TVFs都会被存储为database objects,所以他们的生命周期更长。定义一个叫USACusts的视图:
CREATE VIEW Sales.USACusts
AS
SELECT
custid, companyname, contactname, contacttitle, address
FROM Sales.Customers
WHERE country = N'USA';
定义View的时候不要用SELECT *,因为如果之后又加了一个列到你SELECT FROM的表中的话,由于你的视图的metadata还是不变,所以你查询这个视图还是只能得到原来的列(可以用sp_refreshview或sp_refreshsqlmodule来刷新view的metadata)。
创建View的时候可以指定一些选项(跟在WITH 后面):
ENCRYPTION选项就是告诉SQL Server在存储这个东西的定义的时候,进行obfuscate(混淆)处理,可以用在create or alter views, stored procedures, triggers, and user-defined functions (UDFs)的时候,比如:
ALTER VIEW Sales.USACusts WITH ENCRYPTION AS...
然后如果你再:SELECT OBJECT_DEFINITION(OBJECT_ID('Sales.USACusts'));就会得到NULL。
SCHEMABINDING,当你指定了这个选项的话,有点像外键约束,就比如定义视图的查询是SELECT address FROM Sales.Customers,那么如果你想删掉这一行的话:
ALTER TABLE Sales.Customers DROP COLUMN address;你会得到错误。这个选项是个good practice。
CHECK OPTION,举个例子吧:默认情况下,你可以INSERT INTO Sales.USACusts这个视图一些country不是N'USA'的rows, 因为最终其实还是INSERT到实际的table中去,如果你不想让这样的INSERT(或类似的UPDATE)发生,就指定这个选项。
Inline Table-Valued Functions可以理解为有输入参数的视图,例如:
CREATE FUNCTION dbo.GetCustOrders
(@cid AS INT) RETURNS TABLE
AS
RETURN
SELECT orderid, custid, empid, orderdate, requireddate,
shippeddate, shipperid, freight, shipname, shipaddress, shipcity,
shipregion, shippostalcode, shipcountry
FROM Sales.Orders
WHERE custid = @cid;
然后要用的话就:
SELECT orderid, custid
FROM dbo.GetCustOrders(1) AS O;
CROSS APPLY这个运算符有点像CROSS JOIN,它接受两个表,右边的表可以是一个表表达式,对于左边的表的每一行,都对应一个右边的表,然后合并起来,举个例子:
SELECT C.custid, A.orderid, A.orderdate
FROM Sales.Customers AS C
CROSS APPLY
(SELECT TOP (3) orderid, empid, orderdate, requireddate
FROM Sales.Orders AS O
WHERE O.custid = C.custid
ORDER BY orderdate DESC, orderid DESC) AS A;
这个的意思就是:对于每个Customer(左边的表),返回他最新的三个订单(右边的表),查询结果为:
可以注意到,每个custid都有三行。如果是子查询的话,每个custid就只有一行了,你只能把每个Customer的最新的三个订单合并成一个标量(比如用 FOR XML PATH)。
如果对于左边表里面的某个列,右边的表是个空集,那么左边这一行就不会在整个的查询结果中,如果你想包含它们的话,就用OUTER APPLY,如果把上面的CROSS APPLY改成OUTER APPLY,那么查询结果为:
如果改用incline TVS的话会增加可读性和可维护性:
CREATE FUNCTION dbo.TopOrders
(@custid AS INT, @n AS INT)
RETURNS TABLE
AS
RETURN
SELECT TOP (@n) orderid, empid, orderdate, requireddate
FROM Sales.Orders
WHERE custid = @custid
ORDER BY orderdate DESC, orderid DESC;
然后就可以用了:
SELECT
C.custid, C.companyname,
A.orderid, A.empid, A.orderdate, A.requireddate
FROM Sales.Customers AS C
CROSS APPLY dbo.TopOrders(C.custid, 3) AS A;