4 高阶案例

具身智能应用案例

📄️ 视觉语言动作模型（VLA）

VLA（Vision-Language-Action Model，视觉-语言-动作模型）是一种融合视觉理解、语言交互与机器人控制能力的端到端模型，可根据视觉信息和语言指令直接生成机器人动作，广泛应用于具身智能与机器人操作场景。代表工作有 Google 的 RT-2 和 Physical Intelligence 的 pi0。

友情链接

古月居

联系我们

GitHub
Bilibili