【目的】
父进程使用os.waitpid()等待子进程退出,并检测子进程的exit code,以决定是否重启子进程。
(常见的应用场景是:子进程接收外部命令,收到"stop"时退出所有进程,终止服务;收到"restart"时所有子进程退出,父进程重启所有子进程,以达到重启服务的目的)。
这里面的关键点在于,子进程退出时设置exit code,父进程waitpid时获取该exit code,进而决定是否需要重启子进程。
【问题】
子进程
...
#need restart sys.exit(109) ...
父进程
... for child in children: pid, status = os.waitpid(child, 0) exit_code = os.WEXITSTATUS(status) if exit_code == 109: restart() ...
问题在于,在子进程中通过sys.exit(109)设置了exit code为109,但父进程中os.waitpid()获取的exit code始终为0
【解决办法】
经过反复试验,发现在子进程中应该使用os._exit(109)来取代sys.exit(109)就可以了。
这两者有啥不同呢?
1. sys.exit(n) 退出程序引发SystemExit异常, 可以捕获异常执行些清理工作. n默认值为0, 表示正常退出. 其他都是非正常退出. 还可以sys.exit("sorry, goodbye!"); 一般主程序中使用此退出.
2. os._exit(n), 直接退出, 不抛异常, 不执行相关清理工作. 常用在子进程的退出.
3. exit()/quit(), 跑出SystemExit异常. 一般在交互式shell中退出时使用.