如何有效抓取SQL Server的BLOCKING信息

如何有效抓取SQL Server的BLOCKING信息

SQL Server允许并发操作，BLOCKING是指在某一操作没有完成之前，其他操作必须等待，以便于保证数据的完整性。BLOCKING的解决方法要查看BLOCKING的头是什么，为什么BLOCKING头上的语句执行的很慢。通常来讲只要我们能找到BLOCKING头上的语句，我们总能够想出各种各种的办法，来提升性能，缓解或解决BLOCKING的问题。

但是问题的关键是，我们不知道BLOCKING什么时候会发生。用户跟我们抱怨数据库性能很差，等我们连上数据库去查看的时候，那时候有可能BLOCKING可能就已经过去了。性能又变好了。或者由于问题的紧急性，我们直接重新启动服务器以恢复运营。但是问题并没有最终解决，我们不知道下次问题会在什么时候发生。

BLOCKING问题的后果比较严重。因为终端用户能直接体验到。他们提交一个订单的时候，无论如何提交不上去，通常几秒之内能完成的一个订单提交，甚至要等待十几分钟，才能提交完成。更有甚者，极严重的BLOCKING能导致SQL Server停止工作。如下面的SQL ERRORLOG所表示, 在短短的几分钟之内，SPID数据从158增长到694, 并马上导致SQL Server打了一个dump, 停止工作。我们很容易推断出问题的原因是由于BLOCKING导致的，但是我们无法得知BLOCKING HEADER是什么，我们必须要等下次问题重现时，辅之以工具，才能得知BLOCKING HEADER在做什么事情。如果信息抓取时机不对，我们可能要等问题发生好几次，才能抓到。这时候，客户和经理就会有抱怨了。因为我们的系统是生产系统，问题每发生一次，都会对客户带来损失。

2011-06-01 16:22:30.98 spid1931    Alert There are 158 Active database sessions which is too high.
2011-06-01 16:23:31.16 spid3248    Alert There are 342 Active database sessions which is too high.
2011-06-01 16:24:31.06 spid3884    Alert There are 517 Active database sessions which is too high.
2011-06-01 16:25:31.08 spid3688    Alert There are 694 Active database sessions which is too high.
2011-06-01 16:26:50.93 Server      Using 'dbghelp.dll' version '4.0.5'
2011-06-01 16:26:50.97 Server      **Dump thread - spid = 0, EC = 0x0000000000000000
2011-06-01 16:26:50.97 Server      ***Stack Dump being sent to D:\MSSQL10.INSTANCE\MSSQL\LOG\SQLDump0004.txt
2011-06-01 16:26:50.97 Server      * *******************************************************************************
2011-06-01 16:26:50.97 Server      *
2011-06-01 16:26:50.97 Server      * BEGIN STACK DUMP:
2011-06-01 16:26:50.97 Server      *   06/01/11 16:26:50 spid 4124
2011-06-01 16:26:50.97 Server      *
2011-06-01 16:26:50.97 Server      * Deadlocked Schedulers
2011-06-01 16:26:50.97 Server      *
2011-06-01 16:26:50.97 Server      * *******************************************************************************
2011-06-01 16:26:50.97 Server      * -------------------------------------------------------------------------------
2011-06-01 16:26:50.97 Server      * Short Stack Dump
2011-06-01 16:26:51.01 Server      Stack Signature for the dump is 0x0000000000000258

BLOCKING的信息抓取有很多种方法。这里罗列了几种。并且对每种分析它的优缺点。以便我们选择。在枚举方法之前，我们先简单演示一下BLOCKING.

我们首先创建一个测试表:
DROP TABLE [TESTTABLE]
GO

CREATE TABLE [dbo].[TESTTABLE](
      [ID] [int] NULL,
      [NAME] [nvarchar](50) NULL
)
GO

INSERT INTO TESTTABLE VALUES (1, 'aaaa')
GO

然后打开一个查询窗口，执行下面的语句, 该语句修改一行数据，并等待3分钟，然后在结束transaction
BEGIN TRANSACTION
UPDATE TESTTABLE SET [NAME] = 'bbbb' WHERE [ID] = 1
WAITFOR  DELAY '00:03:00'
COMMIT TRANSACTION

这时候，如果打开另外一个查询窗口，执行下面的语句，下面的语句就会被BLOCK住。
UPDATE TESTTABLE SET [NAME] = 'cccc' WHERE [ID] = 1

方法一, 抓取SQL Profiler
======================
SQL Profiler里面包含大量的信息。其中有一个事件在Errors and Warnings->Blocked Process Report专门用来获得blocking的情况。但是因为信息量比较大，而且我们并不能很好的估算在什么时候会产生blocking，另外在生产环境使用Profiler, 对性能可能会有影响，所以SQL Profiler并不是最合适的工具。我们在这里并不对它赘述。

方法二, 执行查询
================
如果我们检查问题的时候，blocking还存在，那么，我们可以直接可以运行几个查询，得知BLOCKING HEADER的信息

SELECT * FROM sys.sysprocesses where spid>50

上述查询只是告诉我们，BLOCKING HEADER的头是SPID=53, 但是并没有告诉我们SPID=53在做什么事情。我们可以用下面的查询，得到SPID=53的信息
DBCC INPUTBUFFER(53)

我们可以把上述的两个查询合并起来，用下面的查询:

SELECT SPID=p.spid,
       DBName = convert(CHAR(20),d.name),
       ProgramName = program_name,
       LoginName = convert(CHAR(20),l.name),
       HostName = convert(CHAR(20),hostname),
       Status = p.status,
       BlockedBy = p.blocked,
       LoginTime = login_time,
       QUERY = CAST(TEXT AS VARCHAR(MAX))
FROM   MASTER.dbo.sysprocesses p
       INNER JOIN MASTER.dbo.sysdatabases d
         ON p.dbid = d.dbid
       INNER JOIN MASTER.dbo.syslogins l
         ON p.sid = l.sid
       CROSS APPLY sys.dm_exec_sql_text(sql_handle)
WHERE  p.blocked = 0
       AND EXISTS (SELECT 1
                   FROM   MASTER..sysprocesses p1
                   WHERE  p1.blocked = p.spid)

这样，一次执行，就能告诉我们BLOCKING header的SPID信息，以及该SPID在做的语句。我们可以进一步研究该语句，以理解为什么该语句执行很慢。

用这个方法有一个缺点，就是使用的时候，要求BLOCKING是存在的。如果BLOCKING已经消失了，那么我们的方法就不管用了。

方法三,长期执行一个BLOCKING SCRIPT
==================================
因为我们通常无法知道BLOCKING什么时候会产生，所以通常的办法是我们长期运行一个BLOCKING SCRIPT, 这样，等下次发生的时候，我们就会有足够的信息。长期运行BLOCKING SCRIPT对性能基本上是没有影响的。因为我们每隔10秒钟抓取一次信息。缺点是，如果问题一个月才发生一次，那么，我们的BLOCKING日志信息会很大。所以这种方法适用于几天之内能重现问题。

运行方法如下:

如果要停止运行，我们按ctrl+c就可以了。
BLOCKING的信息存在log.out这个文件中

我们可以打开log.out这个文件, 会发现SPID 54被 SPID 53给Block住了。

而随后，我们可以看到SPID=53在做什么事情:

下面是BLOCKING SCRIPT的脚本, 我们可以把它存为blocking.sql

use master
go
while 1 =1
begin
print 'Start time: ' + convert(varchar(26), getdate(), 121)
Print 'Running processes'
select spid, blocked, waittype, waittime, lastwaittype, waitresource, dbid,uid, cpu, physical_io, memusage, login_time, last_batch,
open_tran, status, hostname, program_name, cmd, net_library, loginame
from sysprocesses
--where (kpid <> 0 ) or (spid < 51)
-- Change it if you only want to see the working processes
print '*********lockinfor***********'
select convert (smallint, req_spid) As spid,
rsc_dbid As dbid,
rsc_objid As ObjId,
rsc_indid As IndId,
substring (v.name, 1, 4) As Type,
substring (rsc_text, 1, 16) as Resource,
substring (u.name, 1, 8) As Mode,
substring (x.name, 1, 5) As Status
from master.dbo.syslockinfo,
master.dbo.spt_values v,
master.dbo.spt_values x,
master.dbo.spt_values u
where master.dbo.syslockinfo.rsc_type = v.number
and v.type = 'LR'
and master.dbo.syslockinfo.req_status = x.number
and x.type = 'LS'
and master.dbo.syslockinfo.req_mode + 1 = u.number
and u.type = 'L'
order by spid
print 'inputbuffer for running processes'
declare @spid varchar(6)
declare ibuffer cursor fast_forward for
select cast (spid as varchar(6)) as spid from sysprocesses where spid >50
open ibuffer
fetch next from ibuffer into @spid
while (@@fetch_status != -1)
begin
print ''
print 'DBCC INPUTBUFFER FOR SPID ' + @spid
exec ('dbcc inputbuffer (' + @spid + ')')
fetch next from ibuffer into @spid
end
deallocate ibuffer
waitfor delay '0:0:10'
End

这种方法的缺陷就是，log.out会比较巨大，会占用很大的空间，如果blocking一个月甚至更长时间才发生一次，那我们的这个方法就不太适宜。

方法四,我们用Agent Job来检查BLOCKING
=====================================
长期运行一个BLOCKING SCRIPT的缺点是我们每隔一段时间，去查询信息，但是大多数收集的信息是无用的。所以会导致日志文件巨大，对于一个生产系统来讲，磁盘空间满可不是个好事情，另外，有一些客户对于用命令行来长期运行TSQL脚本有所顾忌，所以我们做了一个改进。这次，我们只收集有用的信息。对于无用的信息我们不关注。这样能极大减少日志大小。

我们首先创建一个观察数据库，然后建立两张表格 Blocking_sysprocesses和Blocking_SQLText, 建立一个存储过程和一个Job, 该Job每隔一段时间去调用存储过程。只有发现有blocking的，我们才记录到表格Blocking_sysprocesses和Blocking_SQLText这两个表格中。如果跟blocking无关，我们就不对它进行记录。下面是TSQL语句:

CREATE DATABASE [MonitorBlocking]
GO

USE [MonitorBlocking]
GO

CREATE TABLE Blocking_sysprocesses(
      [spid] smallint,
      [kpid] smallint,
      [blocked] smallint,
      [waitType] binary(2),
      [waitTime] bigInt,
      [lastWaitType] nchar(32),
      [waitResource] nchar(256),
      [dbID] smallint,
      [uid] smallint,
      [cpu] int,
      [physical_IO] int,
      [memusage] int,
      [login_Time] datetime,
      [last_Batch] datetime,
      [open_Tran] smallint,
      [status] nchar(30),
      [sid] binary(86),
      [hostName] nchar(128),
      [program_Name] nchar(128),
      [hostProcess] nchar(10),
      [cmd] nchar(16),
      [nt_Domain] nchar(128),
      [nt_UserName] nchar(128),
      [net_Library] nchar(12),
      [loginName] nchar(128),
      [context_Info] binary(128),
      [sqlHandle] binary(20),
      [CapturedTimeStamp] datetime
)
GO
CREATE TABLE [dbo].[Blocking_SqlText](
      [spid] [smallint],
      [sql_text] [nvarchar](2000),
      [Capture_Timestamp] [datetime]
)
GO

CREATE PROCEDURE [dbo].[checkBlocking]
AS
BEGIN

SET NOCOUNT ON;
SET TRANSACTION ISOLATION LEVEL READ UNCOMMITTED

declare @Duration   int -- in milliseconds, 1000 = 1 sec
declare @now            datetime
declare @Processes  int

select  @Duration = 100  -- in milliseconds, 1000 = 1 sec
select  @Processes = 0

select @now = getdate()

CREATE TABLE #Blocks_rg(
      [spid] smallint,
      [kpid] smallint,
      [blocked] smallint,
      [waitType] binary(2),
      [waitTime] bigInt,
      [lastWaitType] nchar(32),
      [waitResource] nchar(256),
      [dbID] smallint,
      [uid] smallint,
      [cpu] int,
      [physical_IO] int,
      [memusage] int,
      [login_Time] datetime,
      [last_Batch] datetime,
      [open_Tran] smallint,
      [status] nchar(30),
      [sid] binary(86),
      [hostName] nchar(128),
      [program_Name] nchar(128),
      [hostProcess] nchar(10),
      [cmd] nchar(16),
      [nt_Domain] nchar(128),
      [nt_UserName] nchar(128),
      [net_Library] nchar(12),
      [loginName] nchar(128),
      [context_Info] binary(128),
      [sqlHandle] binary(20),
      [CapturedTimeStamp] datetime
)

INSERT INTO #Blocks_rg
SELECT
      [spid],
      [kpid],
      [blocked],
      [waitType],
      [waitTime],
      [lastWaitType],
      [waitResource],
      [dbID],
      [uid],
      [cpu],
      [physical_IO],
      [memusage],
      [login_Time],
      [last_Batch],
      [open_Tran],
      [status],
      [sid],
      [hostName],
      [program_name],
      [hostProcess],
      [cmd],
      [nt_Domain],
      [nt_UserName],
      [net_Library],
      [loginame],
      [context_Info],
      [sql_Handle],
      @now as [Capture_Timestamp]
FROM master..sysprocesses where blocked <> 0
AND waitTime > @Duration

SET @Processes = @@rowcount

INSERT into #Blocks_rg
SELECT

      src.[spid],
      src.[kpid],
      src.[blocked],
      src.[waitType],
      src.[waitTime],
      src.[lastWaitType],
      src.[waitResource],
      src.[dbID],
      src.[uid],
      src.[cpu],
      src.[physical_IO],
      src.[memusage],
      src.[login_Time],
      src.[last_Batch],
      src.[open_Tran],
      src.[status],
      src.[sid],
      src.[hostName],
      src.[program_name],
      src.[hostProcess],
      src.[cmd],
      src.[nt_Domain],
      src.[nt_UserName],
      src.[net_Library],
      src.[loginame],
      src.[context_Info],
      src.[sql_Handle]
      ,@now as [Capture_Timestamp]
FROM  master..sysprocesses src inner join #Blocks_rg trgt
       on trgt.blocked = src.[spid]

if @Processes > 0
BEGIN
      INSERT [dbo].[Blocking_sysprocesses]
      SELECT * from #Blocks_rg

DECLARE @SQL_Handle binary(20), @SPID smallInt;
DECLARE cur_handle CURSOR FOR SELECT sqlHandle, spid FROM #Blocks_rg;
OPEN cur_Handle
FETCH NEXT FROM cur_handle INTO @SQL_Handle, @SPID
WHILE (@@FETCH_STATUS = 0)
BEGIN

INSERT [dbo].[Blocking_SqlText]
SELECT      @SPID, CONVERT(nvarchar(4000), [text]) ,@now as [Capture_Timestamp]from ::fn_get_sql(@SQL_Handle)

FETCH NEXT FROM cur_handle INTO @SQL_Handle, @SPID
END
CLOSE cur_Handle
DEALLOCATE cur_Handle

END

DROP table #Blocks_rg

END

GO

USE msdb;
GO

EXEC dbo.sp_add_job
      @job_name = N'MonitorBlocking';
GO

EXEC sp_add_jobstep
      @job_name = N'MonitorBlocking',
      @step_name = N'execute blocking script',
      @subsystem = N'TSQL',
      @command = N'exec checkBlocking',
@database_name=N'MonitorBlocking';
GO

EXEC sp_add_jobSchedule
      @name = N'ScheduleBlockingCheck',
      @job_name = N'MonitorBlocking',
      @freq_type = 4, -- daily
      @freq_interval = 1,
      @freq_subday_type = 4,
      @freq_subday_interval = 1

EXEC sp_add_jobserver @job_name = N'MonitorBlocking', @server_name = N'(local)'

当Blocking发生一段时间后，我们可以查询下面的两个表格，以得知当时问题发生时的blocking信息:

use MonitorBlocking
GO
SELECT * from Blocking_sqlText
SELECT * FROM Blocking_sysprocesses
相关阅读:
java native 跨语言开发
 tomcat 加载 war包
 AWS
云主机的体系架构
 数据流程图
 html5 创收
 javascript 发展
 营利模式
 错误：Reference file contains errors http://www.ibm.com/webservices/xsd/j2ee_web_services_client_1_1.xsdv......
android eclipse 项目相互引用设置
原文地址：https://www.cnblogs.com/bluecobra/p/2744266.html