5.10 Token 用量异常
典型现象:发了几条消息后 AI Dock 顶部 token 胶囊已经飙红;月度账单远超预算。
30 秒决策
设置面板 → AI 引擎 → 看"双车道"配置:
- Quick(快速)车道为空 → 默认所有任务都走主模型。新建一个 Quick 条目
- Quick 车道有但模型选错 → 改成实际便宜的小模型(
gpt-4o-mini、qwen-turbo、doubao-seed-2.0-lite) - Quick 已配 → 进入下方"按场景排查"
当前版本的 Token 统计边界
| 你看到的 | 实际行为 |
|---|---|
| AI Dock 右上角胶囊(本次会话) | 准确,会话级实时 |
| AI Dock 单次 Run 完成后的总结 | 准确,单 Run 累计 |
| 跨会话累计 / 按工具聚合 / 按日累计 / 折合费用 | 当前版本不持久化,重启 Studio 就清零 |
要严格成本管控:
- 短期:每天截图 AI Dock 胶囊存档
- 长期:在模型厂商控制台开账单告警(最可靠,与 Studio 解耦)
按场景排查
-
Quick 车道没启用 — Studio 设计了双车道,Thinking(深度)走 claude-sonnet-4 / qwen3.6-plus 等,Quick(快速)走 gpt-4o-mini / qwen-turbo / doubao-seed-2.0-lite 等小任务。如果 Quick 为空所有小任务也走 Thinking,Token 暴涨 5~10 倍。在 设置面板 → AI 引擎 新建一个 Quick 条目即可
-
大文件被反复传 — 每条消息都附长文件 / 截图会反复进上下文:
- 用 附件 而不是粘贴
- 长日志先
head -200截断 - 不要主动关闭 D-Moss 内置的 pruning(70% 上下文窗口时自动 compaction)
-
单次任务连续工作太久 — 默认每条消息允许模型连续推理 64 轮(一轮 = 一次模型调用,工具调用也算)。调高很多(如 256)单条消息可能产生大量 Token。绝大多数日常任务 64 足够
永久解决
- 必配 Quick 车道(选默认 4 个内置条目里的 lite 系列)
- 每周一查厂商账单,对比 Studio 内胶囊数偏差 > 20% 就排查上面三个场景