缘起
最近,我们程序的某个功能在一台机器上不正常,但是在另外一台机器上却是正常的。代码是同一份,vs
版本也一样(打的补丁也一样)。编译出来的程序在两台电脑上运行的结果就是不一样。惊不惊喜,意不意外?如果是你遇到了这种情况,你会怎么调查呢?:upside_down_face:
{% note info %}
说明:
为了跟大家分享这个问题,我事后在自己的机器上重新把整个过程梳理了一遍,并保存了process monitor
抓取的事件文件,方便感兴趣的读者亲手做实验。
为了行文方便,下文把程序功能正常的电脑称作A
,把程序功能不正常的电脑称作B
。
{% endnote %}
排查问题
通过对比程序在两台电脑上的运行过程的不同点可以比较有效的解决这种问题。
下面是我的思路:
- 首先,排除代码不一致的问题。把
A
上的代码拷贝到B
上,编译,运行,功能不正常。 - 把
A
上的整个Debug
目录(程序所在的目录)拷贝到B
上,运行,依然不正常。 - 对比两台电脑上的环境变量,排除两台电脑的环境变量不一致导致的问题(尤其是
PATH
,会影响dll
加载顺序)。
经过以上几步,问题还是没能得到解决。B
应该还有某个(些)关键点跟A
不一样。但是这个(些)关键点究竟是什么?我们应该怎么找到它(们)?这时候该本文的主角process monitor
闪亮登场啦!
请出process monitor
在开始前,先跟各位读者介绍下process monitor
的事件分类:
process monitor
捕获的事件总共分为 5 类:
Registry Activity
注册表相关事件(键和值的读写,创建,删除,枚举等)File System Activity
文件系统相关事件(本地存储和远程文件系统相关事件)Network Activity
网络相关事件(TCP和UDP网络活动)Process and Thread Activity
进程及线程事件(进程和线程事件,模块加载)Profiling Event
(我没用过,具体可参考书上的介绍)
为了方便大家获得更详细的介绍,特意从《Troubleshooting with the Windows Sysinternals Tools》(英文版)中截了一张图:
捕获Event data
首先,使用process monitor
分别在A
和B
上捕获Event Data
。这里不贴出使用process monitor
捕获的过程了。操作很简单,在之前的文章([原]为IDA加载调试符号)里有录屏。
好了,拿到了Event Data
( 点击下载我保存的Event Data ),接下来我们应该怎么对比呢?
对比分析Event Data
在对比前,我们应该过滤掉无关的事件(因为process monitor
捕获到的事件实在是太多了),这里我只根据进程名进行了基本的过滤。
过滤完成后,我们从五类事件中的File System
事件看起(没想到直接解决了问题,剩下几个不用看了:smirk:)。
对比图如下(左侧是A
,右侧是B
):
Wow, 从图中我们明显可以看出来,A
成功加载了pgcell.ocx
,B
没有加载。有windows COM组件
开发经验的读者一定想到了,B
上没注册pgcell.ocx
。
解决问题
知道问题的原因,剩下的事情就很好办了。在B
上注册pgcell.ocx
。注册成功后,在程序里重新执行对应的功能,一切正常。搞定收工。
为了方便对windows COM组件
开发不熟悉的读者,这里给出注册脚本(#
后面的是注释) 。
cd path/to/pgcell.ocx
regsvr32 pgcell.ocx
# regsvr32 -u pgcell.ocx # unregister pgcell.ocx
关于regsvr32
的更多用法,可以直接运行regsvr32
进行学习。在我机器上运行后的截图如下:
通过regsvr32
给出的提示,相信聪明的你也可以自己写一个COM组件
的注册和卸载工具。如果对这方面有兴趣,欢迎留言交流。
后记
最开始帮同事解决这个问题的时候,没有用process monitor
,而是使用了process explorer
。在继续阅读下面的文章前,请先停下来好好思考一下,如何使用process explorer
排查此问题?
和使用process monitor
一样,我们需要对比程序在A
和B
上有什么不同。话不多说,请看动态对比图:
A
上的运行过程:
B
上的运行过程:
我们可以发现,A
上能成功加载pgcell.ocx
,B
却没有加载。
能使用process explorer
解决这个问题,多少有运气的成分!因为这个问题恰巧是由于加载不上某个dll
导致的。如果是由于其它原因(e.g. 读取不到某个关键文件),使用process explorer
就没那么容易发现问题所在了。
总结
- 遇到问题,我们需要清晰的思路+合适的工具。
- 程序在一台电脑上运行正常,在另外一台上运行不正常。对比程序在两台电脑上的运行过程的不同点应该是解决这种问题的有效办法。
sysinternals
系列工具,真的是排错神器!你值得拥有!- 一定要好好利用
process monitor
的过滤功能!能不能有效的过滤出我们想要的事件是重中之重!
参考资料
- 《Windows Sysinternals实战指南》(中文版)
- The Case of the Unexplained: Windows Troubleshooting
阅读完今天的文章,你有什么收获吗?欢迎留言交流!