问题描述:
一个业务复杂、执行时间很长的功能,经常报出“基础链接已经关闭:接收时发生错误”,很是蹊跷。。。
问题分析:
首先,查阅应用服务器的系统日志,发现问题发生时总是会伴随着w3wp进程崩溃的错误,很有问题呀。。。
错误存储段 ,类型 0 事件名称: APPCRASH 响应: 不可用 Cab Id: 0 问题签名: P1: w3wp.exe P2: 7.5.7601.17514 P3: 4ce7afa2 P4: oracommon11.dll P5: 11.2.0.3 P6: 4eb215cc P7: c00000fd P8: 00000000001714b3 P9: P10: 附加文件: 可在此处获取这些文件: C:ProgramDataMicrosoftWindowsWERReportQueueAppCrash_w3wp.exe_7d10d2c9218567c5ec5b216598b20a1b57c250_54fec352 分析符号: 重新检查解决方案: 0 报告 Id: 48b4afbc-6dcf-11e6-b732-f4e9d489a2e0 报告状态: 4 哈希存储段: %22
找到一个自动收集了dump的日志,打开查看错误信息,噢噢。。。。
0:351> !pe -nested Exception object: 000000073fdb1158 Exception type: System.StackOverflowException Message: <none> InnerException: <none> StackTrace (generated): <none> StackTraceString: <none> HResult: 800703e9 Nested exception ------------------------------------------------------------- Exception object: 00000008c0a98f50 Exception type: System.Data.OracleClient.OracleException Message: ORA-00001
: 违反唯一约束条件 (LCXXXXX.PK_XXXXXXX) InnerException: <none> StackTrace (generated): SP IP Function 000000004E4AB990 000007FEF43B0458 System_Data_ni!System.Data.Common.DbDataAdapter.UpdatedRowStatusErrors(System.Data.Common.RowUpdatedEventArgs, BatchCommandInfo[], Int32)+0x19a0e8 000000004E4ABA10 000007FEF4216295 System_Data_ni!System.Data.Common.DbDataAdapter.UpdatedRowStatus(System.Data.Common.RowUpdatedEventArgs, BatchCommandInfo[], Int32)+0x35 000000004E4ABA40 000007FEF421550A System_Data_ni!System.Data.Common.DbDataAdapter.Update(System.Data.DataRow[], System.Data.Common.DataTableMapping)+0x92a 000000004E4ABB20 000007FEF4215ED9 System_Data_ni!System.Data.Common.DbDataAdapter.UpdateFromDataTable(System.Data.DataTable, System.Data.Common.DataTableMapping)+0x39 000000004E4ABB60 000007FEF4214AB5 System_Data_ni!System.Data.Common.DbDataAdapter.Update(System.Data.DataSet, System.String)+0xc5 000000004E4ABBE0 000007FE9AD15365 UNKNOWN!xxxxx.Platform.Core.DataAccess.Oracle.OracleDatabase.DataBatchImportPart(System.Data.DataTable, System.String)+0x225 000000004E4ABC80 000007FE9AD15093 UNKNOWN!xxxxx.Platform.Core.DataAccess.Database.DataBatchImport(System.Data.DataTable, System.String)+0xe3 000000004E4ABCE0 000007FE9D2D339A UNKNOWN!xxxxx.Platform.AppFramework.CCMCore.XXXBatchLockDAC.AddBatchLock(System.Collections.Generic.List`1<xxxxx.Platform.AppFramework.CcmSPI.XXXLockData>, System.String ByRef, Boolean, System.String ByRef)+0x29a 000000004E4ABDB0 000007FE9D2D304A UNKNOWN!xxxxx.Drp.Biz.Com.DataLockMgr.AddBatchLock(System.Collections.Generic.List`1<xxxxx.Platform.AppFramework.CcmSPI.XXXLockData>, System.String ByRef, System.String ByRef)+0x9a 000000004E4ABE00 000007FE9D2D2D75 UNKNOWN!xxxxx.Drp.Biz.Com.DataLockMgr.AddBatchLock(System.Collections.Generic.List`1<xxxxx.Platform.AppFramework.CcmSPI.XXXLockData>, System.String, System.String ByRef)+0x45
反编译现场的对应的DLL发现貌似存在递归调用???
对应的删除SQL
delete from SYLOCK_APBill where SYLOCK_OWNERID = '0ae7c1e5-fc23-4ea7-ad34-9ca03fd2ea02' and SYLOCK_FUNCID = ''
原来,最初反馈问题的功能执行时间太长,在此期间因为别的功能报出栈溢出错误,进而造成进程崩溃,所以才会出现最初看到的疑似网络问题的错误!
问题结论:
至此问题定位:未完全覆盖所有条件场景,造成应用系统递归死循环!直至栈溢出!
解决问题的方法很简单:数据库库对应字段设置为非空,或应用系统代码中增加兼容性处理,增强系统自身的健壮性。