AI Agent

控制 Agent 成本

按任务挑模型、限制上下文、设月度预算 — 三招避免账单暴雷。

账单为什么会暴雷

"我就让它整理几个文档怎么花了 $20" — 因为 Agent 调用工具不止一次。一次复杂任务可能跑 50+ 轮工具调用，每一轮都把当前上下文（可能几万 token）发回模型。Sonnet 输入 $3/M、输出 $15/M，50 轮 × 30K 上下文 = 1.5M input token = $4.5 仅一个任务。

解法不是"少用 Agent"，是"配置好分流" — 简单任务走便宜模型，难题走强模型，并发限制别把账单一次性打满。

三个核心习惯

简单任务用 haiku / mini — 性价比 10x
AI Field 用 manual refresh，不要 auto
在 Settings → Billing 设月度上限

模型路由（Pro）

Pro 解锁多 provider 同时挂载，可以按任务类型把请求分流到不同模型。比如代码改 sonnet、摘要走 haiku、研究走 opus。

{
  "routing": {
    "default": "anthropic:claude-sonnet-4-5",
    "rules": [
      {
        "when": { "tool": ["Read", "grep", "glob"] },
        "use": "anthropic:claude-haiku-4"
      },
      {
        "when": { "subagent": "research-summarizer" },
        "use": "openai:gpt-4o-mini"
      },
      {
        "when": { "context_tokens_gt": 80000 },
        "use": "anthropic:claude-opus-4"
      }
    ]
  }
}

硬性预算守门

Settings → Billing → Monthly cap：到了就停
Per-session cap：单次对话花完自动 stop
Per-tool-call cap：单次工具调用 token 超过 X 直接 reject
配合 Hook 在 Stop 时段把 token 用量写到表，月底有数

降低上下文体积

一次 chat 持续越久，上下文越大、成本越高。三个动作能立竿见影：用 @ 精准引用而不是上传整个文档夹、定期 New Chat 起新 session、长任务用子 Agent 让主 Agent 上下文保持轻。

把 .kition/agent.md 控制在 2KB 以内 — 它每个 turn 都进 system prompt。把项目知识库放进可检索的文档而不是塞这里。

← 返回帮助中心更多 AI Agent →

控制 Agent 成本

账单为什么会暴雷

三个核心习惯

模型路由（Pro）

硬性预算守门

降低上下文体积

相关文档

配置 AI Field

下载 Kition