返回列表 发布新帖
查看: 11|回复: 0

服务器宕机怎么排查?如何从完全失联到定位问题

发表于 昨天 16:42 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
运维中最让人紧张的场景之一:服务器突然连不上了,网站打不开,SSH 也进不去。这时候最怕的不是问题本身,而是没思路、乱操作。这篇文章讲的是服务器宕机排查流程,适用于云服务器 / 物理机。

一、先冷静:确认是不是真“宕机”
很多“宕机”,其实只是访问异常。
检查现象:网站打不开?SSH 连不上?ping 不通?

对比验证:换网络(手机热点 / 其他机房);直接访问 IP;用 TCP Ping 测端口
  1. ping IP
  2. tcping IP 22
  3. tcping IP 80
复制代码
能 tcping 通,说明服务器大概率还活着。

二、第一步:从云厂商控制台看状态(最关键)
如果是云服务器,第一时间看控制台:实例状态:运行 / 停止?是否被强制关机?是否有欠费 / 风控 / 封禁提示?

很多“宕机”,其实是:余额不足;到期自动关机;被风控暂停

三、第二步:看是不是网络问题
安全组 / 防火墙:22 / 80 / 443 是否被误关;是否刚调整过安全组规则

云厂商网络:是否同区域其他机器正常;是否有网络公告

四、第三步:能否进入救援系统(非常重要)
当 SSH 完全进不去时:一定要进救援系统 / 单用户模式,能进救援系统说明:硬盘没坏,系统文件还能读,多半是系统或配置问题

五、救援系统中优先排查的内容
1. 磁盘是否满了(高频原因)
  1. df -h
复制代码
/ 100% → 系统服务起不来
/var 爆满 → 日志写不进去

2. 文件系统是否异常
  1. dmesg | tail
复制代码
看是否有 IO 错误、只读挂载。

3. 最近是否改过配置
重点看:nginx / apache;sshd;防火墙;crontab,一个配置写错,可能直接导致无法登录。

4. SSH 是否被封
  1. grep sshd /var/log/secure
复制代码
是否被 Fail2ban 封 IP,是否改过 ssh 端口却忘了

六、第四步:能进系统但服务全挂
如果能登录,但:网站 502;接口无响应。优先检查:
  1. top
  2. free -h
  3. df -h
复制代码
常见原因:内存打满(OOM);CPU 被异常进程占满;业务进程崩溃

七、常见“假宕机”原因总结
现象实际原因
SSH 连不上安全组关 22
ping 不通ICMP 被禁
网站打不开服务没启动
全部超时磁盘满
偶发失联CPU/内存打满
重启后进不去配置写错

八、排查顺序建议(直接照着做)
1. 控制台状态
2. 网络 / 安全组
3. TCP Ping 端口
4. 救援系统
5. 磁盘 / 内存 / 日志
6. 最近变更

九、运维经验总结
80% 的宕机,都不是硬件问题,而是配置或资源问题。不要第一时间重装系统,一定先进救援模式看一眼。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2025 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.108655 second(s), 7 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表