JVM的GC停顿时间过长该怎么处理？

Z时代
2024-01-10
分类：综合

应用运行过程中是不希望出现长时间的GC停顿的，因为这会影响服务的可用性，导致用户体验变差，甚至会严重损害一些关键的应用程序。本文将会列出可能导致GC停顿时间长的一些原因和解决方案。

1. 对象创建的速度过高

如果应用创建对象的速度非常高，随之而来的就是GC频率也会变快，然后会导致GC的停顿时间变长。所以说，优化代码以降低对象的创建速率是降低GC停顿时间最有效的方法。这可能是一件非常耗时的事情，但是却非常值得去做。

可以使用JProfiler, YourKit, JVisualVM这样的性能监控工具来帮助优化对象的创建速度，这些工具会分析出：应用到底创建了哪些对象？对象创建的速度是多少？这些对象占用了多少内存空间？是谁创建的这些对象？所谓擒贼先擒王，因此首先要考虑优化那些占用内存最多的对象。

2. Young区过小

如果Young过小，对象就会过早的晋升到Old区，Old区的垃圾回收一般比Young区会花费更多的时间，因此，可以通过增大Young区来有效的降低长时间GC停顿。可以用下面两个JVM参数来设置Young区的大小：

-Xmn: 设置Young区所占的字节数

-XX:NewRatio: 设置Old区和Young区的比例，比如说，-XX:NewRatio=3也就是说Old区和Young区的比例是3:1，Young区占整个堆的1/4，如果堆是2G，那么Young区就是0.5G。

3. 选择合适的GC算法

GC算法是影响GC停顿时间的一个非常重要的因素，除非你是个GC方面的专家或者你的团队中有这方面的专家可以调优GC的设置达到最优的停顿时间，否则我建议选择使用G1收集器，因为G1是自动调优的，你只需要设置一个停顿时间的目标就可以了，比如： -XX:MaxGCPauseMillis=200。这个例子设置了最大停顿时间的目标是200ms，JVM会尽最大努力来满足这个目标。如果你已经使用了G1但是还是出现了长时间的GC停顿，那么请继续阅读本文。

4. 进程被交换（Swap）出内存

有时候由于系统内存不足，操作系统会把你的应用从内存中交换出去。Swap是非常耗时的，因为需要访问磁盘，相对于访问物理内存来说要慢得多的多。我认为生产环境下的应用是不应该被Swap出内存的。当发生进程Swap的时候，GC停顿时间也会变长。

下面是从stackoverflow上引用的一个脚本，它能够列出被Swap出内存的进程，要确保你的应用没有被Swap出内存。

#!/bin/bash 
# Get current swap usage for all running processes
# Erik Ljungstrom 27/05/2011
# Modified by Mikko Rantalainen 2012-08-09
# Pipe the output to "sort -nk3" to get sorted output
# Modified by Marc Methot 2014-09-18
# removed the need for sudo
SUM=0
OVERALL=0
for DIR in `find /proc/ -maxdepth 1 -type d -regex "^/proc/[0-9]+"`
do
    PID=`echo $DIR | cut -d / -f 3`
    PROGNAME=`ps -p $PID -o comm --no-headers`
    for SWAP in `grep VmSwap $DIR/status 2>/dev/null | awk "{ print $2 }"`
    do
        let SUM=$SUM+$SWAP
    done
    if (( $SUM > 0 )); then
        echo "PID=$PID swapped $SUM KB ($PROGNAME)"
    fi
    let OVERALL=$OVERALL+$SUM
    SUM=0
done
echo "Overall swap used: $OVERALL KB"

如果很不幸你的应用被Swap了，你需要：

给机器增加内存

减少机器上运行的进程数，以释放更多的内存

减少应用分配的内存（不推荐，可能会引起其他问题）

5. GC线程数过少

GC日志中的每一个GC事件都会打印user、sys、real time，比如：

[Times: user=25.56 sys=0.35, real=20.48 secs]

如果GC日志中，real time并不是明显比user time小，这就说明GC线程数是不够的，这就需要增加GC线程了。假如说，user time是25秒，GC线程数是5，那么real time大概是5左右才是正常的（25/5=5）。

注意：GC线程过多会占用大量的系统CPU，从而会影响应用能使用的CPU资源，因此增加GC线程之前一定要做好测试才可以。

6. IO负载重

如果系统的IO负载很重（大量的文件读写）也会导致GC停顿时间过长。这些IO读写不一定是你的应用引起的，可能是机器上其他的进程导致的，但是这仍然会导致你的应用的停顿时间变长。这里有个文章详细的说明了这种情况：https://engineering.linkedin.com/blog/2016/02/eliminating-large-jvm-gc-pauses-caused-by-background-io-traffic。

当IO负载很重的时候，real time会明显比user time长，比如：

[Times: user=0.20 sys=0.01, real=18.45 secs]

如果发生了这种情况，可以这么办：

如果是你的应用导致的，优化你的代码

如果是别的进程导致的，把它杀掉或者迁走

把你的应用迁到一个IO负载小的机器上

tip：如何来监控IO负载？在linux上可以用sar命令来监控IO的负载：sar -d -p 1，这个命令每隔一秒会打印一次每秒的读写数量。这里有sar的详细的用法：https://www.linuxtechi.com/generate-cpu-memory-io-report-sar-command/

7. 手动调用了System.gc()

当调用了System.gc()或者是Runtime.getRuntime().gc()以后，就会导致FullGC。FullGC的过程当中，整个JVM是暂停的（所有的应用都被暂停掉）。

System.gc()可能是以下几种情况产生的：

应用的程序员手动调用了System.gc()

应用引用的三方库或者框架甚至是应用服务器可能调用了System.gc()

可能是由外部使用了JMX的工具触发，比如：JVisualVM。

如果你的应用使用了RMI，RMI会每隔一段时间调用一次System.gc()，这个时间间隔是可以设置的：

– Dsun.rmi.dgc.server.gcInterval=n
– Dsun.rmi.dgc.client.gcInterval=n

要评估一下，是否真的有必要明确调用System.gc()。如果没有必要，就不要调用。同时，你也可以通过给JVM传递‘-XX:+DisableExplicitGC‘参数来禁用掉System.gc()。关于System.gc()的问题和解决方案可以参考：https://blog.gceasy.io/2016/11/22/system-gc/

8. 堆内存过大

堆内存过大也会导致GC停顿时间过长，如果堆内存过大，那么堆中就会累计过多的垃圾，当发生FullGC要回收所有的垃圾的时候，就会花费更多的时间。如果你的JVM的堆内存有18G，可以考虑分成3个6G的JVM实例，堆内存小会降低GC的停顿时间。

注意：在应用以上任何一种策略之前，都需要做好测试，这些策略对你可能都不适用，如果使用不当可能带来负面效果。

9. GC任务分配不均

就算有多个GC线程，线程之间的任务分配可能也不是均衡的，这个可能有很多种原因：

扫描大的线性的数据结构目前是无法并行的。

有些GC事件只发生在单个线程上，比如CMS中的‘concurrent mode failure’。如果你碰巧使用的CMS，可以使用-XX:+CMSScavengeBeforeRemark 这个参数，它可以让多个GC线程之间任务分配的更平均。

以上是 JVM的GC停顿时间过长该怎么处理？的全部内容，来源链接： utcz.com/z/517594.html