模型路由最佳实践:把成本、质量、速度分层
模型路由不是“选一个最强模型”,而是把不同任务分层处理。
目标:
- 控制 API 成本
- 保持关键任务质量
- 保证高峰期可用性
1) 先定义 3 层任务等级
| 等级 | 典型任务 | 优先目标 | 建议模型档位 |
|---|---|---|---|
| L1 高频轻任务 | 翻译、摘要、格式化 | 成本与速度 | 低成本快模型 |
| L2 常规任务 | 解释、改写、一般分析 | 平衡 | 中档模型 |
| L3 关键任务 | 复杂推理、策略输出 | 质量 | 高质量模型 |
先让团队统一“哪些请求属于 L3”,否则成本会失控。
2) 建立主模型 + 备用模型
建议每层至少 2 个模型:
- 主模型:日常流量
- 备用模型:主模型超时/报错时自动切换
示例(仅演示):
OPENCLAW_MODEL_L1=deepseek-chat
OPENCLAW_MODEL_L1_FALLBACK=qwen-plus
OPENCLAW_MODEL_L2=claude-3.5-sonnet
OPENCLAW_MODEL_L2_FALLBACK=gpt-4.1-mini
OPENCLAW_MODEL_L3=claude-3.7-sonnet
OPENCLAW_MODEL_L3_FALLBACK=gpt-4.1
OPENCLAW_TIMEOUT_MS=60000
OPENCLAW_MAX_RETRIES=2
3) 路由规则建议(从简单到复杂)
规则 A:按命令前缀路由
/fast-> L1/normal-> L2/pro-> L3
优点:最直观,用户可控。
规则 B:按通道路由
- 群聊默认 L1/L2
- 管理员通道允许 L3
优点:成本更可控。
规则 C:按关键词路由
- 含“合同、策略、评估、架构”关键字 -> L3
- 其他 -> L1/L2
优点:对普通用户更无感。
4) 验收指标(上线前必须有)
至少跟踪 7 天:
- 每层请求量占比
- 每层平均响应时间
- 每层错误率(401/429/5xx)
- 每层 token 成本
如果 L3 占比持续 >20%,说明路由规则还不够严格。
5) 故障场景与处理动作
401(权限或 Key 问题)
- 检查是否使用了正确 API Key
- 检查账号是否开通该模型
- 临时切到备用模型保证可用
429(限流)
- 降低并发
- 提高缓存命中
- 把非关键任务下调到 L1
超时或 5xx
- 缩短上下文
- 降低温度与最大输出
- 触发 fallback 并记录事件
6) 每周一次优化循环
- 拉取过去 7 天路由日志
- 统计 Top 10 高成本请求模板
- 把可降级请求从 L3 改到 L2/L1
- 回归测试关键场景不降质