OpenClaw 模型回退链配置指南:限流、故障切换与成本优化实战
如果你只记一条:回退链本质是可用性架构,不是“省钱小技巧”。
当 Anthropic 429、某家 API 抖动、或你临时触发配额上限时,合理的模型链路可以让服务继续可用,用户几乎无感。
先定优先级:可用性 > 成本 > 风格一致性
很多团队一上来就追求“回答风格统一”,结果在限流时整条链路一起失败。正确顺序应是:
- 先活着:保证请求有模型可接
- 再控成本:把高价模型留给高价值任务
- 最后调风格:在稳定基础上优化体验
推荐的回退链结构(跨供应商交错)
建议按这个思路排:
- 主力高质量模型(如 Claude Opus)
- 不同供应商的同档模型(如 GPT Codex)
- 高性价比模型(如 MiniMax M2.1)
- 快速响应模型(如 Gemini Flash)
- 稳定兜底模型(如 GLM)
关键点:不要把同供应商模型连续摆放。同供应商出问题时,连续节点会一起失效。
可直接用的配置示例
编辑 ~/.openclaw/openclaw.json:
{
"agents": {
"defaults": {
"model": {
"primary": "anthropic/claude-opus-4-6",
"fallbacks": [
"openai-codex/gpt-5.3-codex",
"minimax-portal/MiniMax-M2.1",
"google/gemini-3-pro-high",
"google/gemini-3-flash",
"zai/glm-4.7"
]
}
}
}
}
这条链路的意图是:
- Opus → Codex:第一跳就切供应商,降低“同源限流连锁”风险
- MiniMax:作为成本缓冲层
- Gemini:保证高可用与响应速度
- GLM:最后一道“稳态兜底”
按场景覆盖模型(比全局硬顶配更省)
OpenClaw 支持按会话或任务覆盖模型策略:
- 主对话:Opus / Codex(质量优先)
- Cron 自动化:Flash 或低成本模型(结果导向)
- 群聊互动:Sonnet 级别(速度与成本平衡)
这样做通常比“所有流量都走顶配”更稳、更便宜。
运维检查清单(建议每周一次)
- 用固定小任务探活链路中的每个模型
- 单独记录“模型故障”与“提示词问题”
- 统计回退触发率(看是否该调整排序)
- 保留一个“普通但稳定”的末位模型
常见坑与修正
坑 1:把同供应商放在连续位置
后果:同一波 429 会连续失败。
修正:交错供应商,第一跳就切换。
坑 2:system prompt 写死某家特性
后果:回退后工具调用行为漂移。
修正:提示词尽量中立,减少厂商专属格式依赖。
坑 3:只看平均成本,不看“失败成本”
后果:故障时重试暴增,实际更贵。
修正:把可用性指标(成功率、超时率)纳入评估。
FAQ
Q:怎么区分 429 限流和网络问题?
A:429 会有明确状态码,日志常见 429 Too Many Requests;网络异常更常见 ETIMEOUT、ECONNREFUSED。
Q:回退到弱模型会不会明显降级?
A:短时回退多数用户无感。只有复杂推理与长链工具调用场景,差异更明显。
Q:如何确认当前会话用的是哪个模型?
A:运行 openclaw status,或在日志中查看模型选择记录。
结论
单一顶级模型给你的是“峰值能力”,而合理回退链给你的是“持续可用性”。在真实生产环境里,后者更重要。