重启大法好!线上常见问题排查手册
The following article is from 阿里技术 Author 常海云(奕达)
1 频繁 FullGC/YongGC
查看 gc 日志
jstat -gcutil pid 查看内存使用和 gc 情况
2 代码消耗,如死循环,md5 等内存态操作
1)arthas (已开源:https://github.com/alibaba/arthas)
thread -n 5 查看 CPU 使用率最高的前 5 个线程(包含堆栈,第二部分有详解)
2)jstack 查找
ps -ef | grep java 找到 Java 进程 id
top -Hp pid 找到使用 CPU 最高的线程
printf ‘0x%x’ tid 线程 id 转化 16 进制
jstack pid | grep tid 找到线程堆栈
排查方法见常见问题一
2 iowait,等待 IO
vmstat 查看 blocked 进程状况
jstack -l pid | grep BLOCKED 查看阻塞态线程堆栈
jstack -l pid | grep BLOCKED 查看阻塞态线程堆栈
profiler dump 线程栈,分析线程持锁情况
新 new 的对象放在 Eden 区,当 Eden 区满之后进行一次 MinorGC,并将存活的对象放入 S0;
当下一次 Eden 区满的时候,再次进行 MinorGC,并将存活的对象和 S0 的对象放入S1(S0 和 S1 始终有一个是空的);
依次循环直到 S0 或者 S1 快满的时候将对象放入 old 区,依次,直到 old 区满进行 FullGC。
jdk1.7 之前 Java 类信息、常量池、静态变量存储在 Perm 永久代,类的原数据和静态变量在类加载的时候放入 Perm 区,类卸载的时候清理;在 1.8 中,MetaSpace 代替 Perm 区,使用本地内存,常量池和静态变量放入堆区,一定程度上解决了在运行时生成或加载大量类造成的 FullGC,如反射、代理、groovy 等。
CMSInitiatingOccupancyFraction 表示老年代使用率达到多少时进行 FullGC;
UseCMSCompactAtFullCollection 表示在进行 FullGC 之后进行老年代内存整理,避免产生内存碎片。
1)survivor 区太小,对象过早进入老年代。
jstat -gcutil pid 1000 观察内存运行情况;
jinfo pid 查看 SurvivorRatio 参数;
2)大对象分配,没有足够的内存。
日志查找关键字 “allocating large”;
profiler 查看内存概况大对象分布;
实例数量前十的类:jmap -histo pid | sort -n -r -k 2 | head -10
实例容量前十的类:jmap -histo pid | sort -n -r -k 3 | head -10
dump 堆,profiler 分析对象占用情况
1)fgc 触发比例过大,导致老年代占用过多,并发收集时用户线程持续产生对象导致达到触发 FGC 比例。
jinfo 查看 CMSInitiatingOccupancyFraction 参数,一般 70~80 即可
2)老年代存在内存碎片。
jinfo 查看 UseCMSCompactAtFullCollection 参数,在 FullGC 后整理内存
业务监控
sunfire
eagleeye
日志关键字 “Deadlock found when trying to get lock”
Jstack 或 zprofiler 查看阻塞态线程
jstack –l pid | grep -i –E 'BLOCKED | deadlock'
dump thread 通过 zprofiler 分析阻塞线程和持锁情况
mvn dependency:tree 分析报错方法所在的 jar 包版本,留下新的
arthas:sc -d ClassName
XX:+TraceClassLoading
ClassNotFoundException
NoClassDefFoundError
ClassCastException
-f 跟踪文件
-i 忽略大小写
-v 反转查找
-E 扩展正则表达式 :grep -E 'pattern1|pattern2' filename
-b 开启并发
-p 指定并发数
-A 开启 askpass
-F 指定分隔符:awk -F “|” '{print $1}‘ | sort -r | uniq -c
时间段匹配:sed '/2020-03-02 10:00:00/,/2020-03-02 11:00:00/p' filename
dashboard:系统实时数据面板, 可查看线程,内存,gc 等信息
thread:jvm 线程堆栈信息,如查看最繁忙的前 n 线程
getstatic:获取静态属性值,如 getstatic className attrName 可用于查看线上开关真实值
sc:查看 jvm 已加载类信息,可用于排查 jar 包冲突
sm:查看 jvm 已加载类的方法信息
jad:反编译 jvm 加载类信息,排查代码逻辑没执行原因
watch:观测方法执行数据,包含出入参,异常等;
trace:方法内部调用时长,并输出每个节点的耗时,用于性能分析
tt:用于记录方法,并做回放
1 线程池满
rpc 框架线程池满
高 RT 接口进行线程数限流
应用内线程池满
重启可短暂缓解,具体还得看问题原因
单机置换或重启,可短暂缓解,恢复看具体原因
集群高且流量大幅增加,扩容,恢复看具体原因
限流
降级
死锁
kill 进程
慢 sql
sql 限流
参与相关讨论,请在公众号回复关键词:读者群。
参与相关讨论,请在公众号回复关键词:读者群。
技术琐话