高级T-SQL第1级的阶梯:使用交叉连接来引入高级T-SQL
格雷戈里·拉森(Gregory Larsen),2016/02/19(第一次出版:2014 /12/17)
原文来自:http://www.sqlservercentral.com/articles/Stairway+Series/119933/
该系列
本文是进阶系列的一部分:通向高级的T-SQL
这个楼梯将包含一系列的文章,这些文章将扩展到您在前面的两个T-SQL stairways中学习的T-SQL基础上,以及在基础之上的T-SQL DML和T-SQL的进阶。这应该帮助读者准备通过微软认证考试70 - 461:查询微软SQL Server 2012。
这是一个新的进阶系列的第一篇文章,它将探索Transact SQL(TSQL)的更高级特性。这个进阶将包含一系列的文章,这些文章将扩展到您在之前的两个TSQL stairways中学习的TSQL基础:
l T-SQL DML的阶梯
l T-SQL的进阶:超越基础
这个“高级Transact SQL”的进阶将涵盖以下TSQL主题:
l 使用交叉连接操作符
l 使用应用操作符
l 理解公共表表达式(CTE)
l 使用Transact SQL游标记录级别的处理
l 用支点将数据转到侧边
l 使用UNPIVOT将列转换成行
l 使用排序函数排序数据
l 使用函数管理日期和时间
l 了解条款的变化
这个进阶的读者应该已经很好地理解了如何从SQL Server表查询、更新、插入和删除数据。此外,他们应该有一个工作知识,这些方法可以用来控制他们的TSQL代码的流程,以及能够测试和操作数据。
这个进阶应该帮助读者准备通过微软认证考试70 - 461:查询微软SQL Server 2012。
在这个新的进阶系列的第一期中,我将讨论CROSS JOIN操作符。
CROSS JOIN操作符介绍
交叉连接操作符可以将一个数据集的所有记录合并到另一个数据集中的所有记录。通过使用两组记录之间的交叉连接操作符,您创建了一个称为笛卡尔乘积的东西。
这里有一个简单的例子,使用CROSS JOIN操作符来连接两个表A和B:
注意,当使用交叉连接操作符时,没有连接子句连接两个表,就像在两个表之间执行内部和外部连接操作时使用的连接子句。
需要注意的是,使用交叉连接可以生成一个大的记录集。为了研究这种行为,我们来看看两个不同的例子,说明这个结果集的大小将来自于交叉连接操作。对于第一个示例,假设您是交叉连接两个表,其中表A有10行,表B有3行。一个交叉连接的结果集将是10乘以3或30行。对于第二个示例,假设表A有1000万行,表B有300万行。在表a和B之间的交叉连接结果中有多少行?那将是一个巨大的30000亿行。这是大量的行,需要大量的时间和大量的资源来创建这个结果集。因此,在大型记录集上使用交叉连接操作符时需要非常小心。
让我们仔细研究一下使用CROSS JOIN操作符的一些例子。
使用交叉连接的基本示例
在前面的几个例子中,我们将会连接两个示例表。清单1中的代码将用于创建这两个示例表。确保在用户数据数据库中运行这些脚本,而不是在master中。
清单1:交叉连接的示例表
对于第一个交叉连接示例,我将运行清单2中的代码。
清单2:简单的交叉连接示例
当我在一个SQL Server Management Studio窗口中运行清单2中的代码时,通过我的会话设置输出结果的文本,我得到了报告1中的输出:
报告1:运行清单2的结果
如果你回顾报告1的结果,你可以看到有15个不同的记录。这些前5个记录包含从产品表的第一行与SalesItem表中5个不同的行连接的列值。同样适用于产品表的2秒和3行。返回的行数是Product表中的行数乘以SalesItem表中的行数,即15行。
创建Cartesian产品可能有用的一个原因是生成测试数据。假设我想在我的产品和SalesItem表中使用日期生成一些不同的产品。我可以使用一个交叉连接来实现,如清单3所示:
清单3:简单的交叉连接示例
当我运行清单3中的代码时,我得到了报告2中的输出。
报告2:运行清单3的结果
通过查看清单3中的代码,您可以看到,我生成了一些列,其中包含与产品表中的数据类似的数据。通过使用ROW_NUMBER函数,我可以在每行上生成唯一的ID列。此外,我使用SalesItem表中的ID列创建惟一的ProductName和成本列值。产生的行数等于产品表中的行数乘以SalesItem表中的行数。
到目前为止,本节中的示例只执行了跨两个表的交叉连接。可以使用CROSS JOIN操作符跨多个表执行交叉连接操作。清单4中的示例在三个表中创建了一个Cartesian产品。
清单4:使用CROSS JOIN操作符创建三个表的Cartesian产品
运行清单4的输出有两个不同的CROSS_JOIN操作。由该代码创建的Cartesian产品将产生一个结果集,其总行数等于sys中的行数。表乘以sys中的行数。对象乘以sysusers中的行数。
当交叉连接执行类似于内部连接时
在前面的部分中,我提到过,当使用交叉连接运算符时,它会产生一个笛卡尔积。这不是真的。当您使用WHERE子句约束连接到跨连接操作SQL Server的表时,不会创建笛卡尔产品。相反,它的功能类似于普通的连接操作。为了演示这种行为,请查看清单5中的代码。
清单5:两个等价的SELECT语句。
清单5中的代码包含两个SELECT语句。第一个SELECT语句使用CROSS JOIN操作符,然后使用WHERE子句定义如何连接到交叉连接操作中的两个表。第二个SELECT语句使用一个正常的内部连接操作符,并使用一个ON子句来连接这两个表。SQL Server的查询优化器足够聪明,可以知道清单5中的第一个SELECT语句可以作为内部连接重新编写。优化器知道,当使用交叉连接操作时,它可以重新编写查询,与在交叉连接中涉及的两个表之间提供连接谓词的WHERE子句一起使用。因此,SQL Server引擎为清单5中的SELECT语句生成相同的执行计划。当您不提供一个约束SQL服务器不知道如何连接跨连接操作的两个表时,它会在与交叉连接操作相关联的两个集合之间创建一个Cartesian产品。
使用交叉连接查找未销售的产品
在前面的小节中找到的示例是为了帮助您理解CROSS JOIN操作符以及如何使用它。使用CROSS JOIN操作符的一个功能是使用它来帮助在一个表中查找与另一个表中没有匹配记录的项。例如,假设我想要在我的产品表中每一个产品被售出的每一个日期,报告我的产品表中每个产品名称的总数量和总销售额。因为在我的例子中,每一个产品的名字都不是每天都有销售,我的报告要求是我需要显示一个0的数量和总的销售额的0美元,因为这些产品在某一天没有销售。这是交叉连接操作符与左外JOIN操作的结合,它将帮助我识别那些在给定的一天中没有被出售的项目。满足这些报告需求的代码如清单6所示:
清单6:查找不使用交叉连接销售的产品
让我带你走过这段代码。我创建了一个子查询,它选择所有不同的SalesDate值。这个子查询提供了所有的日期,其中有一个销售。然后我将它与我的产品表连接起来。这允许我在每个销售日期和每个产品行之间创建一个Cartesian产品。从交叉连接返回的集合将具有在最终结果集中所需要的所有值,除了每个产品的Qty和TotalSalesAmt的总和。为了获得这些汇总值,我在SalesItem表上执行一个左外连接,并与通过CROSS JOIN操作创建的Cartesian产品连接。我基于ProductID和SalesDate列执行了此连接。通过使用我的Cartesian产品中的左外联接来返回,如果有一个与ProductID和SalesDate相匹配的SalesDate记录,那么Qty和TotalSalesAmt值将与相应的行相关联。这个查询的最后一件事是使用GROUP BY子句来总结基于SalesDate和ProductName的Qty和TotalSalesAmount。
性能考虑
产生笛卡尔积的交叉连接运算符有一些性能方面需要考虑。因为SQL引擎需要在一个集合中加入每一行,而在另一个集合中,结果集可以相当大。如果我做一个交叉连接一个表有1,000,000行和另一个表有100,000行那么我的结果集就会有1,000,000 X 10万行,或者说100,000,000,000行。这是一个很大的结果集,它将花很多时间来创建它。
交叉连接操作符可以是一个很好的解决方案,可以在所有可能的组合中确定一个结果集,就像所有客户的每个月的所有销售,即使在几个月的时间里,一些客户没有销售。在使用CROSS JOIN操作符时,如果希望优化性能,应该尽量减少交叉联接的大小。例如,假设我有一个表,其中包含过去两个月的销售数据。如果我想要生成一个报告,显示一个月没有销售的客户,那么确定一个月的天数的方法可以极大地改变我的查询的性能。为了证明这一点,我首先为1000名客户创造了一个为期两个月的销售记录。我将使用清单7中的代码来实现这一点。
清单7:TSQL为性能测试创建示例数据
清单7中的代码为1000个不同的客户创建了两个月的数据。这段代码没有为每7个客户增加销售数据。这段代码产生了1000个Cust表记录和52,338个销售表记录。
为了演示如何使用交叉连接操作符执行不同的操作,这取决于跨连接输入集中使用的集合的大小,让我来运行清单8和清单9中的代码。对于每个测试,我将记录返回结果所需的时间。
清单8:与所有销售记录交叉连接
清单9:与不同的销售日期列表交叉连接
在清单8中,CROSS JOIN操作符加入了1000个Cust记录,其中有52,338个销售记录,生成一个创纪录的52338000行的记录集,然后用来确定一个月销售为零的客户。在清单9中,我将选择标准从Sales表中更改为只返回一组不同的SalesDate值。这个独特的集合只产生了61个不同的销售日期值,因此清单9中的CROSS JOIN操作的结果只产生了61,000条记录。通过减少交叉连接操作的结果集,清单9中的查询运行不到1秒,而清单8中的代码在我的机器上运行了19秒。这种性能差异的主要原因是记录SQL Server需要处理每个查询执行的不同操作的数量。如果您查看两个清单的执行计划,您将看到计划略有不同。但是,如果您看一下嵌套循环(Inner Join)操作所生成的记录的数量,在图形化计划的右侧,您将看到清单8估计有52338000条记录,而清单9中的操作仅估计有61,000条记录。这个巨大的记录集,清单8的查询计划从交叉连接嵌套循环操作中生成,然后再传递到几个额外的操作。因为清单8中的所有操作都必须处理5200万的记录。清单8比清单9慢得多。
正如您所看到的,交叉连接操作中使用的记录数可以极大地影响查询运行的时间长度。因此,如果您可以编写您的查询来最小化交叉连接操作中涉及的记录的数量,那么您的查询将执行得更有效率。
结论
交叉连接运算符在两个记录集之间产生一个笛卡尔积。这个操作符有助于识别一个表中没有与另一个表中匹配的记录的项。应注意尽量减少与交叉连接操作符使用的记录集的大小。通过确保交叉连接的结果集尽可能小,您将确保代码尽可能快地运行。
问题和答案
在本节中,您可以通过回答下列问题,来回顾您使用CROSS JOIN操作符理解的程度。
问题1:
交叉连接操作符根据on子句中指定的列匹配两个记录集创建一个结果集。
l 真
l 假
问题2:
可以使用哪个公式来标识将从两个表A和B之间不受约束的交叉连接返回的行数,当表A和B包含重复的行时?
l 表A中的行数乘以表B中的行数
l 表A中的行数乘以表B中唯一行的数目
l 表A中唯一行数乘以表B中的行数
l 表A中唯一行数乘以表B中唯一行数
问题3:
哪一种方法提供了减少交叉连接操作产生的笛卡尔乘积的最大机会?
l 确保连接的两个集合有尽可能多的行
l 确保连接的两个集合有尽可能少的行
l 确保在交叉联接操作的左边设置的行数越少越好
l 确保在交叉联接操作的右侧设置的行数越少越好
答案:
问题1:
正确的答案是b . CROSS JOIN操作符不使用ON子句来执行交叉连接操作。它将一个表中的每一行连接到另一个表中的每一行。当它连接两个集合时,交叉联接创建一个笛卡尔乘积。
问题2:
正确的答案是A . b、c和d是不正确的,因为如果在表A或b中有重复的行,那么在创建CROSS join操作的Cartesian产品时,将会连接到每个重复的行。
问题3:
正确答案是b。通过减少交叉连接操作中所涉及的两个集合的大小,可以最小化CROSS JOI操作创建的最终集的大小。c和d还有助于减少交叉连接操作创建的最终集的大小,但不像确保交叉连接操作中涉及的两个集都可以有最少的行一样理想。
这篇文章是通往高级T-SQL进阶的一部分
注册到我们的RSS频道,一旦我们在进阶上发布一个新的级别,就会得到通知!