AI Agent

控制 Agent 成本

按任务挑模型、限制上下文、设月度预算 — 三招避免账单暴雷。

账单为什么会暴雷

"我就让它整理几个文档怎么花了 $20" — 因为 Agent 调用工具不止一次。一次复杂任务可能跑 50+ 轮工具调用,每一轮都把当前上下文(可能几万 token)发回模型。Sonnet 输入 $3/M、输出 $15/M,50 轮 × 30K 上下文 = 1.5M input token = $4.5 仅一个任务。

解法不是"少用 Agent",是"配置好分流" — 简单任务走便宜模型,难题走强模型,并发限制别把账单一次性打满。

三个核心习惯

  • 简单任务用 haiku / mini — 性价比 10x
  • AI Field 用 manual refresh,不要 auto
  • 在 Settings → Billing 设月度上限

模型路由(Pro)

Pro 解锁多 provider 同时挂载,可以按任务类型把请求分流到不同模型。比如代码改 sonnet、摘要走 haiku、研究走 opus。

{
  "routing": {
    "default": "anthropic:claude-sonnet-4-5",
    "rules": [
      {
        "when": { "tool": ["Read", "grep", "glob"] },
        "use": "anthropic:claude-haiku-4"
      },
      {
        "when": { "subagent": "research-summarizer" },
        "use": "openai:gpt-4o-mini"
      },
      {
        "when": { "context_tokens_gt": 80000 },
        "use": "anthropic:claude-opus-4"
      }
    ]
  }
}

硬性预算守门

  • Settings → Billing → Monthly cap:到了就停
  • Per-session cap:单次对话花完自动 stop
  • Per-tool-call cap:单次工具调用 token 超过 X 直接 reject
  • 配合 Hook 在 Stop 时段把 token 用量写到表,月底有数

降低上下文体积

一次 chat 持续越久,上下文越大、成本越高。三个动作能立竿见影:用 @ 精准引用而不是上传整个文档夹、定期 New Chat 起新 session、长任务用子 Agent 让主 Agent 上下文保持轻。

.kition/agent.md 控制在 2KB 以内 — 它每个 turn 都进 system prompt。把项目知识库放进可检索的文档而不是塞这里。

相关文档

下载 Kition

本地优先的 AI 工作空间。Markdown 文档、结构化数据表、AI Agent,全部跑在你自己的电脑上。