跳到主要内容

3.2.6 双车道路由

RDK Studio 设计了 Thinking 和 Quick 两套模型槽位,根据任务类型自动分发。这一机制让开发者既能享受重模型的强推理能力,又不会因为所有任务都走重模型导致 Token 成本暴涨。

两个车道的职责

车道触发场景推荐模型类型
Thinking(深度)主对话、复杂推理、多步规划、需要硬件感知与工具调用的任务Claude Sonnet、通义千问 plus、豆包 Seed Pro 等强模型
Quick(快速)工具结果总结、文件浏览总结、命令转描述、简短问答gpt-4o-mini、qwen-turbo、豆包 Seed Lite 等小模型

Thinking 车道处理"需要思考的",Quick 车道处理"基于已有数据生成简短回复的"。

自动路由

Studio 根据任务特征自动选择车道,开发者通常不需要手动干预。例如:

  • 用户问"帮我查 BPU 占用并解释为什么这么高"——Thinking 车道处理(需要规划:先调工具、再分析数据)
  • 用户问"刚才那条命令的输出是什么意思"——Quick 车道处理(仅基于已有上下文做总结)
  • Agent 调用工具后需要把结果总结给用户——Quick 车道处理

AI Dock 底部的"当前模型"标签会显示本次回复实际使用的车道与模型,开发者可以观察 Studio 的路由决策。

Quick 车道空缺的代价

如果开发者只配置了 Thinking 车道、Quick 车道空缺,所有任务都会走 Thinking 车道。这会带来以下后果:

  • Token 成本上升 5~10 倍:Quick 车道本应处理的简短任务也由强模型处理
  • 响应变慢:强模型推理时间通常比小模型长
  • 不影响功能:能力上没有问题,仅是成本与速度的劣化

强烈建议配置 Quick 车道。Quick 车道的模型可以选择厂商最便宜的小模型(如 gpt-4o-mini、qwen-turbo),单次调用通常不到 1 分钱。

配置入口

双车道的指派入口在 配置中心 → AI 引擎

  • 顶部有两个独立的下拉框,分别为 Thinking 和 Quick 指派模型条目
  • 每个车道可以独立配置模型条目(甚至可以是不同厂商)
  • 切换实时生效,无需重启

完整的模型条目字段说明、协议判定规则在 3.12.3 AI 引擎配置