📄️ 多模态交互助手ASR(自动语音识别)与 VLM(视觉语言模型)结合,可实现“语音 + 视觉”的多模态交互能力,使系统不仅能够理解用户语音内容,还能结合当前场景进行语义理解与交互决策,广泛应用于机器人、智能座舱、智能终端及展会交互等场景。
📄️ 多模态交互助手ASR(自动语音识别)与 VLM(视觉语言模型)结合,可实现“语音 + 视觉”的多模态交互能力,使系统不仅能够理解用户语音内容,还能结合当前场景进行语义理解与交互决策,广泛应用于机器人、智能座舱、智能终端及展会交互等场景。