宋宝华: Linux僵尸进程可以被“杀死”吗?
什么是僵尸
首先要明确一点,僵尸进程的含义是:子进程已经死了,但是父进程还没有wait它的一个中间状态,这个时候子进程是一个僵尸。正常情况下子死,父wait,清理掉子进程的task_struct,释放子进程的PID:
编译上述程序,运行,我们看到2个a.out进程:
杀死子进程4578,看到父进程的打印:
之后,4578会消失,因为父进程执行到了wait,也知道了子进程是被信号2杀掉的。
但是如果子进程死了,父进程不执行到wait,比如把上图中的"#if 0"改为"#if 1",杀死子进程后,子进程就是一个僵尸:
我们重新运行,当我们用kill -2杀掉子进程4628后,我们发现4628成为一个僵尸,状态变为Z+,名字上也加了一个棺材[],成为[a.out]:
僵尸不可能被杀死
我们看到上面4628是个僵尸很不爽,所以我们想把它干掉,据说Linux有个信号9,神挡杀神,佛挡杀佛,我们现在来用kill -9干掉4628:
从上图可以看出,我们把4628用kill -9捅了好多刀,但是最后看4628这个僵尸,还是没有消失。
因为僵尸已经是死了,它不可能再次被杀死,你给它捅一万刀,它也是个死人,不可能再次死!
僵尸不可能被杀死,因为它已经死了!只等父进程来wait清理尸体了。
一个僵尸可以被杀死的假象
下面的这个程序证明“僵尸可以被杀死”:
我们在主线程里面,pthread_create()创建线程后,pthread_exit()退出,这个时候我们会发现,在ps命令里面,a.out显示为一个僵尸:
这个时候我们来杀死4730这个僵尸:
kill -9 4730
我们会惊奇地发现,4730真地会从ps命令里面消失!
我们把时间轴拉回调用"kill -9 4730"之前。刚才我们“看起来”能杀死僵尸的本质原因是,当主线程4730调用pthread_exit()退出后,主线程4730的状态确实是僵尸了,但是该进程里面的4731线程,却没有死:
看看4731:
4731是活着的,证明整个进程并没有挂。
那么,根据POSIX标准关于信号(signal)的定义,当我们执行kill -9 4730(4730是4730和4731的TGID,也是整个进程用户态视角的PID)的时候,是要杀死整个4730进程的,所以这个时候4731被我们杀死,整个进程就都死了,这个时候,执行到父进程的wait逻辑,导致僵尸消失。
所以,在本例中,kill -9 4730看起来是"杀死了僵尸”,实际是杀死了4731,导致整个进程死。
(完)
"Linux阅码场"是专业的Linux及系统软件技术交流社区,Linux系统人才培养基地,企业和Linux人才的连接枢纽。
查看我们精华技术文章请移步:
求职招聘请移步:
Linux阅码场: 连接企业和Linux人才的platform总线
扫描二维码关注我们
如果觉得好,请
转发
转发
转发