跳到主要内容

3.2.4 附件与多模态输入

AI Dock 支持上传文件、图片、截图作为对话的附加上下文。当 Studio 当前激活的模型支持视觉能力时,图片可以直接被模型分析;文档则作为长文本上下文供 Agent 引用。

支持的附件类型

类型支持用途
图片png、jpg、jpeg、webp、gif视觉模型分析(要求模型支持视觉,如 GPT-4V、Claude 3.5 Sonnet、通义千问 VL)
文档txt、py、yaml、json、sh、xml、md、cpp、h、log 等作为长文本上下文
截图(剪贴板)通过 Ctrl + V 直接粘贴同图片处理

三种添加附件的方式

方式操作
点击附件按钮AI Dock 输入框旁的回形针图标,弹出文件选择器
拖拽文件从资源管理器拖到 AI Dock 输入框上
粘贴截图Ctrl + V(macOS:Cmd + V),剪贴板中的图片直接附加

附加的文件会显示在输入框上方,发送消息时一并提交给 Agent。

典型使用场景

分析报错截图

开发者在板端看到一个图形界面的报错弹窗,截图后粘贴到 AI Dock,描述:"这个错误是什么意思,怎么解决?" 视觉模型会读取截图内容,结合 Agent 的设备感知能力给出修复建议。

上传配置文件请求修改

把 launch 文件、yaml 配置等上传到 AI Dock,描述需要的修改。Agent 会读取文件内容、生成修改后的版本,并可以直接通过 device_file_write 写回板端。

长日志的总结与定位

把 1000+ 行的 journalctl 日志保存为 txt 文件后上传,描述:"找出其中的错误并按时间顺序总结。" Agent 会扫描整份日志,提取关键事件。

注意事项

附件会进入对话的上下文窗口,因此会消耗 Token:

  • 一张 1080p 截图通常占用 1k~3k Token(取决于模型的视觉编码方式)
  • 一份 100 KB 的文本文件大约消耗 25k~30k Token
  • 重复发送同一文件会重复占用 Token,建议把"上传一次后让 Agent 持续引用"作为常用模式

如果 AI Dock 顶部的 Token 胶囊接近上限,建议新建会话或精简附件内容。