背竽 发表于 2025-8-3 20:37:53

阿里云平台健康检查巡检清单-运维篇

阿里云平台健康检查综合巡检清单
1. 管理节点检查
* 节点运行状态:
* 检查管理节点(如部署了管控组件的ECS实例)是否处于 Running 状态。
* 通过阿里云控制台、OpenAPI 或 CLI 确认状态。
* 检查系统负载(CPU、内存)是否在合理范围,无持续高负载。
* 服务运行状态:
* 检查关键管理服务(如管控 Agent、监控 Agent、日志服务 Agent、安全服务 Agent、调度服务等)是否正常运行 (systemctl status, ps aux)。
* 检查服务日志 (journalctl, /var/log/) 是否有错误、警告或频繁重启记录。
* 磁盘使用情况:
* 检查系统盘和数据盘(如有)的使用率 (df -h)。
* 关键阈值: 系统盘 / 分区建议保持在 80% 以下,避免因空间不足导致服务异常或升级失败。
* 检查 inode 使用情况 (df -i)。
* 高可用状态:
* 如果管理节点本身是多节点部署(如管控集群),检查集群状态是否健康(Active/Standby 或 Active/Active)。
* 检查 VIP 漂移状态(如适用)。
* 检查节点间的心跳、网络连接是否正常。
* 验证故障转移功能是否有效(模拟测试需谨慎)。

2. 云平台计算节点(宿主机)检查
* 时间同步 (NTP/Chrony):
* 检查宿主机系统时间是否准确 (date)。
* 检查 NTP/Chrony 服务状态是否运行 (systemctlstatus ntpd/chronyd)。
* 检查是否与可靠的 NTP 服务器同步 (ntpq-p, chronyc sources)。
* 检查时间差是否在可接受范围内(通常要求
页: [1]
查看完整版本: 阿里云平台健康检查巡检清单-运维篇