消失的死锁:从 JSF 线程池满到 JVM 初始化原理剖析
Tech导读
JVM初始化竟然会造成死锁问题?本文通过分析一次线上线程池耗尽的问题,剖析理解JVM初始化的原理。
导读
JVM初始化竟然会造成死锁问题?本文通过分析一次线上线程池耗尽的问题,剖析理解JVM初始化的原理。01 问题描述
在今年的敏捷团队建设中,我通过Suite执行器实现了一键自动化单元测试。Juint除了Suite执行器还有哪些执行器呢?由此我的Runner探索之旅开始了!
在一次上线时,按照正常流程上线后,观察了线上报文、接口可用率十分钟以上,未出现异常情况,结果在上线一小时后突然收到jsf线程池耗尽的报警,并且该应用一共有30台机器,只有一台机器出现该问题,迅速下线该机器的jsf接口,恢复线上。然后开始排查问题。
报错日志信息:
[WARN]2023-04-10 18:03:34.847 [ - ][] |[JSF-23002]Task:java.util.concurrent.FutureTask@502cdfa0 has been reject for ThreadPool exhausted! pool:200, active:200, queue:0, taskcnt: 2159[BusinessPool#:][JSF-SEV-WORKER-225-T-8]
02
问题分析
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将目标页面展示到屏幕。
2.1 出现问题原因
a)因为只有一台机器出现线程池耗尽,其他机器均正常运行。所以第一时间判断是否为有大量流量负载不均衡导致;
b)业务代码存在并发锁;
c)业务代码处理时间较长;
排查接口流量UMP监控,按照机器纬度看,发现每个机器流量是均衡的,排除a)项;
排查业务量大的接口UMP KEY监控,按照机器纬度看,正常机器和异常机器耗时基本一致,并于往常一致,无较大差异,排除c)项;
排查数据库监控,无慢sql,读写均无耗时较长的情况,排除d)项;
2.2 根据已确认的原因排查思路
1)down下dump文件,发现极多JSF线程处于RUNNABLE状态,并且堆栈处于SerializersHelper类
"JSF-BZ-22000-223-T-200" #1251 daemon prio=5 os_prio=0 tid=0x00007fd15005c000 nid=0xef6 in Object.wait() [0x00007fce287ac000]
java.lang.Thread.State: RUNNABLE
at com.jd.purchase.utils.serializer.helper.SerializersHelper.ofString(SerializersHelper.java:79)
at com.jd.ldop.pipe.proxy.OrderMiddlewareCBDExportServiceProxy.getAddress(OrderMiddlewareCBDExportServiceProxy.java:97)
at com.jd.ldop.pipe.proxy.OrderMiddlewareCBDExportServiceProxy.findOrder(OrderMiddlewareCBDExportServiceProxy.java:211)
log.info("register: {} , clazz : {}", serializer.getCode(), serializer.getClass().getName());
初始化此类时static代码块为:
static {
STRATEGY = new DefaultIdStrategy(IdStrategy.DEFAULT_FLAGS);
}
2)开始排查为什么初始化这个类会失败
由于不同机器存在初始化成功和失败的独立性,首先考虑jar包是否冲突。
a)于是发现这里存在jar冲突,但是将冲突jar排除后,多次重启机器后发现依然存在此ProtoStuffSerializer初始化失败情况。
2.3 找到问题
最后发现下面这个线程的堆栈:
"jcase-jmq-reporter-t-0" #1010 daemon prio=5 os_prio=0 tid=0x00007fd258004800 nid=0x9ba in Object.wait() [0x00007fd10fffd000]
java.lang.Thread.State: RUNNABLE
at io.protostuff.runtime.RuntimeEnv.<clinit>(RuntimeEnv.java:229)
at io.protostuff.runtime.IdStrategy.<clinit>(IdStrategy.java:53)
at io.protostuff.runtime.ExplicitIdStrategy$Registry.<init>(ExplicitIdStrategy.java:67)
at com.jd.tp.jcase.util.RecordSerializers$ProtostuffIdRegistry.<init>(RecordSerializers.java:108)
at com.jd.tp.jcase.util.RecordSerializers.<clinit>(RecordSerializers.java:34)
at com.jd.tp.jcase.recording.agent.reporter.impl.JmqReporter$ReportRunner.run(JmqReporter.java:106)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)
发现此线程(in Object.wait())也依然处于等待状态,并且此线程的堆栈信息中包含了protostuff这个关键字(由于上面线程都等待在初始化protostuffprotostuff导致的!)
从此行栈信息开始排查:
at com.jd.tp.jcase.recording.agent.reporter.impl.JmqReporter$ReportRunner.run(JmqReporter.java:106)
<bean id="jcaseJmqReporter" class="com.jd.tp.jcase.recording.agent.reporter.impl.JmqReporter" init-method="start" destroy-method="stop">
<constructor-arg name="name" value="jmq"/>
<constructor-arg name="recorder" ref="jcaseRecorder"/>
<constructor-arg name="topic" value="${jmq.topic.ldopjcasereporter}"/>
<constructor-arg name="producer" ref="jcaseJmqProducer"/>
<property name="config" ref="jcaseConfig"/>
</bean>
RecordSerializers.ProtostuffIdRegistry registry = new RecordSerializers.ProtostuffIdRegistry();
于是线程开始初始化ExplicitIdStrategy这个类:
排查RuntimeEnv的static代码块时发现存在和上一个线程使用了相同的类:
new DefaultIdStrategy();
2.4 类加载的问题?
然后再分析一下这个线程的堆栈信息。
"jcase-jmq-reporter-t-0" #1010 daemon prio=5 os_prio=0 tid=0x00007fd258004800 nid=0x9ba in Object.wait() [0x00007fd10fffd000]
java.lang.Thread.State: RUNNABLE
at io.protostuff.runtime.RuntimeEnv.<clinit>(RuntimeEnv.java:229)
at io.protostuff.runtime.IdStrategy.<clinit>(IdStrategy.java:53)
at io.protostuff.runtime.ExplicitIdStrategy$Registry.<init>(ExplicitIdStrategy.java:67)
at com.jd.tp.jcase.util.RecordSerializers$ProtostuffIdRegistry.<init>(RecordSerializers.java:108)
at com.jd.tp.jcase.util.RecordSerializers.<clinit>(RecordSerializers.java:34)
at com.jd.tp.jcase.recording.agent.reporter.impl.JmqReporter$ReportRunner.run(JmqReporter.java:106)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)
Locked ownable synchronizers:
- <0x00000000c81fce28> (a java.util.concurrent.ThreadPoolExecutor$Worker)
可以看到在RuntimeEnv、IdStrategy后都有<clinit>;
2.5 类的初始化过程
比如在类里声明一段static代码块,或者有静态属性,javac会将这些代码都统一放到一个叫做clinit的方法里,在类初始化的时候来执行这个方法,但是JVM必须要保证这个方法只能被执行一次,如果有其他线程并发调用触发了这个类的多次初始化,那只能让一个线程真正执行clinit方法,其他线程都必须等待,当clinit方法执行完之后,然后再唤醒其他等待这里的线程继续操作,当然不会再让它们有机会再执行clinit方法,因为每个类都有一个状态,这个状态可以保证这一点。
public static class ClassState {
public static final InstanceKlass.ClassState ALLOCATED = new InstanceKlass.ClassState("allocated");
public static final InstanceKlass.ClassState LOADED = new InstanceKlass.ClassState("loaded");
public static final InstanceKlass.ClassState LINKED = new InstanceKlass.ClassState("linked");
public static final InstanceKlass.ClassState BEING_INITIALIZED = new InstanceKlass.ClassState("beingInitialized");
public static final InstanceKlass.ClassState FULLY_INITIALIZED = new InstanceKlass.ClassState("fullyInitialized");
public static final InstanceKlass.ClassState INITIALIZATION_ERROR = new InstanceKlass.ClassState("initializationError");
private String value;
private ClassState(String value) {
this.value = value;
}
public String toString() {
return this.value;
}
}
2.6 类加载的动作
void TemplateTable::checkcast() {
...
call_VM(rax, CAST_FROM_FN_PTR(address, InterpreterRuntime::quicken_io_cc));
...
}
IRT_ENTRY(void, InterpreterRuntime::quicken_io_cc(JavaThread* thread))
// Force resolving; quicken the bytecode
int which = get_index_u2(thread, Bytecodes::_checkcast);
constantPoolOop cpool = method(thread)->constants();
// We'd expect to assert that we're only here to quicken bytecodes, but in a multithreaded
// program we might have seen an unquick'd bytecode in the interpreter but have another
// thread quicken the bytecode before we get here.
// assert( cpool->tag_at(which).is_unresolved_klass(), "should only come here to quicken bytecodes" );
klassOop klass = cpool->klass_at(which, CHECK);
thread->set_vm_result(klass);
IRT_END
klassOop klass_at(int which, TRAPS) {
constantPoolHandle h_this(THREAD, this);
return klass_at_impl(h_this, which, CHECK_NULL);
}
klassOop constantPoolOopDesc::klass_at_impl(constantPoolHandle this_oop, int which, TRAPS) {
...
klassOop k_oop = SystemDictionary::resolve_or_fail(name, loader, h_prot, true, THREAD);
...
}
//SystemDictionary::resolve_or_fail最终会调用到下面这个方法
klassOop SystemDictionary::resolve_instance_class_or_null(Symbol* name, Handle class_loader, Handle protection_domain, TRAPS) {
...
// Class is not in SystemDictionary so we have to do loading.
// Make sure we are synchronized on the class loader before we proceed
Handle lockObject = compute_loader_lock_object(class_loader, THREAD);
check_loader_lock_contention(lockObject, THREAD);
ObjectLocker ol(lockObject, THREAD, DoObjectLock);
...
//此时会调用ClassLoader.loadClass来加载类了
...
}
Handle SystemDictionary::compute_loader_lock_object(Handle class_loader, TRAPS) {
// If class_loader is NULL we synchronize on _system_loader_lock_obj
if (class_loader.is_null()) {
return Handle(THREAD, _system_loader_lock_obj);
} else {
return class_loader;
}
}
SystemDictionary::resolve_instance_class_or_null
这个方法非常关键了,在里面我们看到会获取一把锁ObjectLocker,其相当于我们java代码里的synchronized
关键字,而对象对应的是lockObject,这个对象是上面的SystemDictionary::compute_loader_lock_object
方法返回的,从代码可知只要不是bootstrapClassloader加载的类就会返回当前classloader对象,也就是说当在加载一个类的时候其实是会持有当前类加载对象的锁的,在获取了这把锁之后就会调用ClassLoader.loadClass来加载类了。2.7 小结
从dump来看确实是死锁了,那这个场景当时是怎么发生的呢?
如图所示,最后A、B线程均在等待对方初始化完成,然后C、D、E等两百个线程需要使用ProtoStuffSerializer时,就在等待A线程初始化ProtoStuffSerializer完成。因此造成了JSF线程池爆满。
"JSF-BZ-22000-223-T-1" #980 daemon prio=5 os_prio=0 tid=0x00007fd164002000 nid=0x99a in Object.wait() [0x00007fd1de8b7000]
java.lang.Thread.State: RUNNABLE
at com.jd.purchase.utils.serializer.impl.ProtoStuffSerializer.<clinit>(ProtoStuffSerializer.java:42)
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
03 解决方案
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将目
这里选择提前加载这个bean:初始化业务所使用到的类
<bean class="com.jd.purchase.utils.serializer.starter.CustomSerializerStarter"/>
04 Demo验证
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将目标页面展示到屏幕。
4.1 Demo代码
public class JVMTest {
public static void main(String[] args) {
new Thread(){
public void run(){
B.test();
}
}.start();
new Thread(){
public void run(){
A.test();
}
}.start();
}
}
class A{
static{
int a=0;
System.out.println(a);
B.test();
}
static void test(){
System.out.println("调用了A的test方法");
}
}
class B{
static{
int b=0;
System.out.println(b);
A.test();
}
static void test(){
System.out.println("调用了B的test方法");
}
}
结果:
4.2 Demo现象解释
05
总结
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将目标页面展示到屏幕。
类加载的死锁很隐蔽了,但是类初始化的死锁更隐蔽,所以大家要谨记在类的初始化代码里产生循环依赖,另外对于jdk8的defalut特性也要谨慎,因为这会直接触发接口的初始化导致更隐蔽的循环依赖。
【推荐阅读】
JDK的sql设计不合理导致的驱动类初始化死锁问题:https://blog.csdn.net/xichenguan/article/details/39578401
java虚拟机规范—初始化:https://blog.csdn.net/weixin_38233104/article/details/125251345
JVM常用命令:https://zhuanlan.zhihu.com/p/401563061
特别鸣谢:郑承磊老师
最全的【DDD领域建模】小白学习手册(文末附资料)
Serverless冷扩机器在压测中被击穿问题
求分享
求点赞
求在看