|
|
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要 登录 才可以下载或查看,没有账号?立即注册
×
运维中最让人紧张的场景之一:服务器突然连不上了,网站打不开,SSH 也进不去。这时候最怕的不是问题本身,而是没思路、乱操作。这篇文章讲的是服务器宕机排查流程,适用于云服务器 / 物理机。
一、先冷静:确认是不是真“宕机”
很多“宕机”,其实只是访问异常。
检查现象:网站打不开?SSH 连不上?ping 不通?
对比验证:换网络(手机热点 / 其他机房);直接访问 IP;用 TCP Ping 测端口
- ping IP
- tcping IP 22
- tcping IP 80
复制代码 能 tcping 通,说明服务器大概率还活着。
二、第一步:从云厂商控制台看状态(最关键)
如果是云服务器,第一时间看控制台:实例状态:运行 / 停止?是否被强制关机?是否有欠费 / 风控 / 封禁提示?
很多“宕机”,其实是:余额不足;到期自动关机;被风控暂停
三、第二步:看是不是网络问题
安全组 / 防火墙:22 / 80 / 443 是否被误关;是否刚调整过安全组规则
云厂商网络:是否同区域其他机器正常;是否有网络公告
四、第三步:能否进入救援系统(非常重要)
当 SSH 完全进不去时:一定要进救援系统 / 单用户模式,能进救援系统说明:硬盘没坏,系统文件还能读,多半是系统或配置问题
五、救援系统中优先排查的内容
1. 磁盘是否满了(高频原因)
/ 100% → 系统服务起不来
/var 爆满 → 日志写不进去
2. 文件系统是否异常
看是否有 IO 错误、只读挂载。
3. 最近是否改过配置
重点看:nginx / apache;sshd;防火墙;crontab,一个配置写错,可能直接导致无法登录。
4. SSH 是否被封
- grep sshd /var/log/secure
复制代码 是否被 Fail2ban 封 IP,是否改过 ssh 端口却忘了
六、第四步:能进系统但服务全挂
如果能登录,但:网站 502;接口无响应。优先检查:
常见原因:内存打满(OOM);CPU 被异常进程占满;业务进程崩溃
七、常见“假宕机”原因总结
| 现象 | 实际原因 | | SSH 连不上 | 安全组关 22 | | ping 不通 | ICMP 被禁 | | 网站打不开 | 服务没启动 | | 全部超时 | 磁盘满 | | 偶发失联 | CPU/内存打满 | | 重启后进不去 | 配置写错 |
八、排查顺序建议(直接照着做)
1. 控制台状态
2. 网络 / 安全组
3. TCP Ping 端口
4. 救援系统
5. 磁盘 / 内存 / 日志
6. 最近变更
九、运维经验总结
80% 的宕机,都不是硬件问题,而是配置或资源问题。不要第一时间重装系统,一定先进救援模式看一眼。
|
|