-
Notifications
You must be signed in to change notification settings - Fork 12.6k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
nacos集群某个节点每间隔1天左右宕机,问题持续近3天了,麻烦大佬们给个排查思路,感谢!!! #12108
Comments
看一下/var/log/message日志?是不是内核kill的 |
nacos只会在磁盘满的时候自杀, 其他任何情况下都不会自行宕机(至少进程会存在)。 如果出现了机器整体宕机,或者进程消失, 那么应该是操作系统(或者k8s)执行的kill。 如果通过/var/log/message等系统相关日志以及k8s状态排查未果, 可以考虑更换一下机器后重试。 |
那估计还是系统环境本身的问题,或者机器故障了,建议换一台机器试一下。 |
这个是正常的, 及时mysql有问题,nacos也不会宕机。 |
关于机器故障的问题专门找aws的工程师看了,经过验证没有问题;而且该相同类型EC2实例,我们买了有近20台,不同实例上部署很多springcloud微服务全家桶、nacos、seata等服务,但就是nacos会自己宕机,所以机器有故障可能性很低。 4.获取集群链接负载信息:curl -X GET http://ip:8848/nacos/v2/core/loader/current/cluster 通过上述监控指标,是否需要采用SLB模式部署,或者是升级nacos版本2.1.0->最新版本 |
怎么看都像是这台机器有问题。。 连接根本就打不进去吧。 |
应该是nacos节点宕机后,客户端与集群其他节点建立了长连接(重启宕机节点会有1min最大间隔时间),导致该宕机节点客户端连接数为0;通过OpenAPI接口/nacos/v2/core/loader/current/reloadCurrent手动调节集群负载后,可以观察到该宕机节点是有客户端连接的,而且整个集群的其他机器也分别宕机过,所以是可以正常链接的 |
nacos版本:2.1.0
集群节点数:4个
服务器配置(aws-ec2):8核16G
JVM参数:-Xms4g -Xmx4g -XX:+UseG1GC,其他参数默认
问题补充:nacos宕机时,服务器CPU/内存/磁盘都是健康状态,nacos日志也未找到对应error信息,重启后服务又正常
The text was updated successfully, but these errors were encountered: