运维告警指南:让 OpenClaw 出问题时你能第一时间知道
如果没有告警,你通常是在“用户投诉后”才发现故障。
这篇给你一个最小可用告警方案,30 分钟可以落地。
1) 先确定 3 个核心告警
- 机器人不可达告警
- API 错误率告警
- 定时任务超时告警
只要这三条在线,80% 的严重问题都能提前发现。
2) 机器人不可达告警
检测动作
每 1 分钟执行一次健康检查:
openclaw status
openclaw health
告警阈值
- 连续 2 次检查失败 -> 触发 P1 告警
- 连续 5 次失败 -> 自动触发重启动作
自动自愈建议
openclaw gateway restart
sleep 8
openclaw health
3) API 错误率告警
重点监控错误码
401:Key 或权限异常429:配额/速率限制5xx:平台侧波动
建议阈值
- 5 分钟窗口内错误率 > 5% -> 预警
- 5 分钟窗口内错误率 > 10% -> 告警
处理优先级
- 先切换备用模型保服务可用
- 再排查根因(权限、额度、网络)
4) 定时任务超时告警
若你有日报、同步、批处理任务,必须监控执行时长。
建议阈值
- 超过历史 P95 的 1.5 倍 -> 预警
- 超过历史 P95 的 2 倍 -> 告警
处理动作
- 终止异常任务
- 重新触发一次
- 记录超时输入与模型响应时延
5) 告警通道设计(不要单点)
至少两个通道:
- Telegram 值班群
- 飞书/企业 IM 值班群
同时配置“升级路径”:
- 5 分钟无人确认 -> @当班负责人
- 10 分钟无人处理 -> 升级到技术负责人
6) 值班 Runbook(建议直接照抄)
收到告警后按固定顺序处理:
- 看
openclaw status - 看
openclaw health - 看最近 50 行错误日志
- 判断是通道问题、模型问题还是配置问题
- 执行重启或切换备用模型
- 复测 3 条消息
建议记录模板:
事件时间:
影响范围:
错误码分布:
临时处理动作:
根因:
长期修复项:
7) 每周演练(防止纸面流程失效)
每周至少一次“模拟故障演练”:
- 模拟模型 401
- 模拟 gateway 停止
- 模拟通道 token 失效
目标是验证:
- 告警是否触达
- 人员是否按 Runbook 执行
- 15 分钟内是否可恢复