LWP进程资源耗尽,Resource temporarily unavailable
服务器环境使用root账户运行应用程序是非常危险的,容易让人拿到shell变成肉鸡。所以有点意识的团队,都会建立一个低权限的普通用户用来运行java程序。
权限低,有点不像亲儿子,在资源紧张的困难时刻尤其能看出来。
现象
问题是在一台公用的测试环境机器发生的,正式环境并没有复现。这台服务器部署了几十个服务,且部署账户最近从root
切换到了xjjbot
。
运行一段时间后,服务器频繁发生问题了。首先,有大量连接处于CLOSE_WAIT状态,一度以为是被动关闭的问题。但并不是。
netstat -antp | grep CLOSE | awk '{print $7}' | sort | uniq -c
奇怪的是,使用root
账户或者其他账户登录系统,操作一切正常。然而当切换到xjjbot
账户,则会报以下错误:
# sudo su - xjjbot
bash: fork: retry: no child processes
bash: fork: retry: no child processes
bash: fork: retry: no child processes
bash: fork: retry: no child processes
bash: fork: Resource temporarily unavailable
以上是系统级别的报错信息。这种情况下,jvm也会有相应报错,但恐怕你也没有机会去看了(可以使用其他系统用户查看哦)。
- Cannot create GC thread. Out of system resources
- java.lang.OutOfMemoryError: unable to create new native thread
原因
引起的原因就是资源不够用了,具体来说是进程资源。
Linux的线程其实是一个进程,所以java的也是,具体来说,叫做“light weight process(LWP)”—轻量级进程。
LWP与其它进程共享所有(或大部分)逻辑地址空间和系统资源,一个进程可以创建多个LWP,这样它们共享大部分资源;LWP有它自己的进程标识符,并和其他进程有着父子关系;。LWP由内核管理并像普通进程一样被调度
使用以下命令可以看到某个用户使用了多少进程资源
ps -eLf | grep xjjbot(uid) | wc -l
使用下面命令可以查看具体每个进程开启了多少线程
ps -o nlwp,pid,lwp,args -u xjjbot(uid) | sort -n
解决
根据linux一切都是文件的规则,首先想到的,是修改ulimit的参数,然而也不是,因为它已经足够大了。交叉回想一下elasticsearch,在安装的时候,需要配置一个叫做nproc
的东西,问题大概就出在这,是进程资源不够用啦。
相关的配置文件:/etc/security/limits.conf
在不同的内核版本上,也有一些小差异。比如
/etc/security/limits.d/*
下的文件,会在某些时候覆盖limits.conf的配置。所以配置不生效的情况下,记得检查一下。
鉴于以上原因,可以将limits.d中的配置全部注释掉,统一在limits.conf中配置。
以下是原始配置
* soft nproc 4096
root soft nproc unlimited
将4096改为大点的数字,或者直接改成unlimited就可以了。
ElasticSearch系统参数配置
既然提到了es,那么我们看一下es安装都需要改哪些系统配置。这些经验都是公用的,可以举一反三。
https://www.elastic.co/guide/en/elasticsearch/reference/master/setting-system-settings.html
禁用swap
swap是性能杀手,所以ES也忍受不住了,直接关掉。
sudo swapoff -a
在配置文件里也可以加入这个参数,jvm锁住内存,不让它们和交换分区交换。
bootstrap.memory_lock: true
虚拟内存
ES使用mmapfs
来映射一些数据,但默认的系统参数对它来说太小了,也需要修改。
sysctl -w vm.max_map_count=262144
永久生效需要修改 /etc/sysctl.conf
文件句柄
ulimit
linux打开的文件描述符数量是有限的。如果你的应用需要同时和很多小文件打交道,则需要配置此参数。
sudo su
ulimit -n 65536
su elasticsearch
/etc/security/limits.conf
ok,这就是我们刚才改动的文件。要想上面的配置永久生效,则需要改动此文件。
elasticsearch - nofile 65536
线程数量
就是我们上面说的啦,能够快速想到它,也是因为安装过es -.-
所以,不要随便开一大堆线程,除了增加调度时间,还容易顶到系统的天花板。
冯诺依曼架构下,这些软件,不都一个套路么?
有着一样的命运,挣扎着却无法逃脱。