AI Agent
控制 Agent 成本
按任务挑模型、限制上下文、设月度预算 — 三招避免账单暴雷。
账单为什么会暴雷
"我就让它整理几个文档怎么花了 $20" — 因为 Agent 调用工具不止一次。一次复杂任务可能跑 50+ 轮工具调用,每一轮都把当前上下文(可能几万 token)发回模型。Sonnet 输入 $3/M、输出 $15/M,50 轮 × 30K 上下文 = 1.5M input token = $4.5 仅一个任务。
解法不是"少用 Agent",是"配置好分流" — 简单任务走便宜模型,难题走强模型,并发限制别把账单一次性打满。
三个核心习惯
- 简单任务用 haiku / mini — 性价比 10x
- AI Field 用 manual refresh,不要 auto
- 在 Settings → Billing 设月度上限
模型路由(Pro)
Pro 解锁多 provider 同时挂载,可以按任务类型把请求分流到不同模型。比如代码改 sonnet、摘要走 haiku、研究走 opus。
{
"routing": {
"default": "anthropic:claude-sonnet-4-5",
"rules": [
{
"when": { "tool": ["Read", "grep", "glob"] },
"use": "anthropic:claude-haiku-4"
},
{
"when": { "subagent": "research-summarizer" },
"use": "openai:gpt-4o-mini"
},
{
"when": { "context_tokens_gt": 80000 },
"use": "anthropic:claude-opus-4"
}
]
}
}硬性预算守门
- Settings → Billing → Monthly cap:到了就停
- Per-session cap:单次对话花完自动 stop
- Per-tool-call cap:单次工具调用 token 超过 X 直接 reject
- 配合 Hook 在
Stop时段把 token 用量写到表,月底有数
降低上下文体积
一次 chat 持续越久,上下文越大、成本越高。三个动作能立竿见影:用 @ 精准引用而不是上传整个文档夹、定期 New Chat 起新 session、长任务用子 Agent 让主 Agent 上下文保持轻。
把 .kition/agent.md 控制在 2KB 以内 — 它每个 turn 都进 system prompt。把项目知识库放进可检索的文档而不是塞这里。