📄️ 视觉语言动作模型(VLA)VLA(Vision-Language-Action Model,视觉-语言-动作模型)是一种融合视觉理解、语言交互与机器人控制能力的端到端模型,可根据视觉信息和语言指令直接生成机器人动作,广泛应用于具身智能与机器人操作场景。代表工作有 Google 的 RT-2 和 Physical Intelligence 的 pi0。
📄️ 视觉语言动作模型(VLA)VLA(Vision-Language-Action Model,视觉-语言-动作模型)是一种融合视觉理解、语言交互与机器人控制能力的端到端模型,可根据视觉信息和语言指令直接生成机器人动作,广泛应用于具身智能与机器人操作场景。代表工作有 Google 的 RT-2 和 Physical Intelligence 的 pi0。