• SQLServer 大数据查询分析


    在web开发中经常碰到排序,可能有人有这样的想法:

               1,排序是什么时候排序,是在执行sql语句前完成排序功能,还是最后?

               2,排序对sql语句性能有影响吗?

               3,在排序中建立索引有好处吗?

              

         这段时间,在优化系统时,也碰到类似的问题,今天我们来讨论一下排序这个问题,

         1,首先我们看看什么时候排序

             执行以下的sql语句:

    SELECT   * FROM  [dbo].[[[zping.com]]]]] where laststepid='402882ed0ea1c940010ea2332879007f'  order by workflowid

      执行计划:

       

        这里发现,sql server中排序是在数据找出来以后在进行排序的,

        如果我们在前面加上一个top 2 *限制条件,那”Sort“和“Top N  ”谁先谁后啦。执行了一下,

     发现,”Sort“和“Top N ”合并成了一个“Top N Sort”操作,在排序时,就直接选出数据了

       顺序:

         排序是“top N”前执行,查出全部数据后执行的。

           2,排序对sql语句性能有影响吗?

             1,上面刚刚看到,但通过索引选出来的数据比较少时,排序是很快的。对性能没有影响。uju

            2, 但如果查询没有条件,如下列sql       

    SELECT TOP (10*(100-1)) ID FROM  [dbo].[[[zping.com]]]]]  ORDER BY  workflowid DESC

       如果此时workflowid没有索引,该查询速度会很慢:

        为何:因为这时数据库不知道workflowid的排序顺序,只有进行表扫描,取出全部表数据,才能按workflowid来排序,再进行排序后取前几行数据。

                如果这时在workflowid建立有索引,优化器就可以通过索引排序好的RID,取出990行数据,这时执行计划里就不会有"sort"操作

    因为索引已经排好序了。

              但对其他sql有影响吗?这次我们在优化分页功能是就发现排序很花费时间。为何啦?,我们先看看一个常用排序sql

    复制代码
    SELECT TOP 20  * FROM  [dbo].[[[zping.com]]]]] WHERE  (ID  IN (SELECT TOP (10*(10000-1)) ID FROM  [dbo].[[[zping.com]]]]] ORDER BY  workflowid )) ORDER BY  workflowid DESC 
    复制代码

      这里的:id为唯一索引,workflowid为非唯一索引,执行计划如下:

          

     

        这里发现:排序很花时间,占到了44%的开销了。

        为何我在workflowid建立了索引,还是慢啦?

     SQL Server 2005 分页比  2000的确提高不少,可以使用  row_number()函数来处理。

      

        先看看这个分页函数的效率。新建一个表[[zping.com]]

       

    复制代码
    CREATE TABLE [dbo].[[[zping.com]]]]](     [id] [varchar](32NOT NULL,     [wwid] [varchar](32NULL,     [laid] [varchar](32NULL,     [cupid] [varchar](32NULL,     [isreceived] [int] NULL,     [issited] [int] NULL,     [ised] [int] NULL,     [isfhed] [int] NULL
    复制代码

         导入该表数据有70万,取60-80条间的20条数据,在id建立唯一索引

    select * from  (select *, row_number() over (order by id)  scn from   [dbo].[[[zping.com]]]]] ) t where scn<=80 and scn>60

      sql server统计信息:

     表 '[[zping.com]]'。扫描计数 1,逻辑读取 83 次,物理读取 0 次,预读 0 次,lob 逻辑读取 0 次,lob 物理读取 0 次,lob 预读 0 次。

      这里看到其逻辑读才83次,数据效率很高 

      我们把取100000100000-20条之间的数据 

    select * from  (select *, row_number() over (order by id)  scn from   [dbo].[[[zping.com]]]]] ) t where scn<100000 and scn>100000-20

     sql server统计信息: 

    (19 行受影响)   表 '[[zping.com]]'。扫描计数 1,逻辑读取 100740 次,物理读取 259 次,预读 2026 次,lob 逻辑读取 0 次,lob 物理读取 0 次,lob 预读 0 次。

       这里发现取100000100000-20条之间的数据,花费了逻辑读取 100740 次,是上一个几千倍。同样是取20条数据,差距为何

    这么大啊:我们对比一下执行计划:

      

      查看一下取60-80行的执行计划:

         1,在开始取数据时的索引扫描同样是取的“id索引”的“实际行数”是80行,在通过嵌套循环取出这个80行数据的全部字段。

         2,”序列射影“是“[Expr1004] = 标量运算符(row_number)”,说明,在选出来的list中增加虚拟列序号如(1,2,3......)

         3,第“筛选器”这个谓词操作时他的运作是“[Expr1004]>(60) AND [Expr1004]<=(80)”,取出20行数据

      实际上:这时过程中只去了80行数据,再去取20行数据

       看看100000100000-20条之间的数据执行计划

     

      执行计划和上面的一样:

       细微差别:

           1,在开始取数据“id索引”的“实际行数”是10万

           2,在筛选器中谓词为“[Expr1004]>(99980) AND [Expr1004]<(100000)

       分页技术总结:

          1, row_number()函数,只有在数据选择出来以后再加上的虚拟列,选择的时候是不知道编号的。

          2, 要取出非索引的数据,数据库要到表里把预先要的数据全部取出来,行越多逻辑读也也越多。

    摘录自http://www.cnblogs.com/zping/archive/2008/07/21/1247718.html

  • 相关阅读:
    质量属性的六个常见属性应用场景(淘宝篇)
    软件架构师如何工作?
    寒假学习第十五天
    寒假学习第十四天
    ADMEMS方法体系:3个阶段,一个贯穿环节之Refined Architecture阶段阅读感悟
    《企业应用架构模式》阅读笔记一
    《重构:改善既有代码的设计》阅读笔记三
    大数据分析01——数据爬取
    《重构:改善既有代码的设计》阅读笔记二
    kettle--Trans插件之输出
  • 原文地址:https://www.cnblogs.com/yunfeiqi/p/3433176.html
Copyright © 2020-2023  润新知