在机器人技术领域,视觉语言大模型(VLM)虽能理解人类指令并完成场景推理,但如何将语义理解转化为实际物理操作,始终是亟待突破的瓶颈。传统模型擅长拆解“整理桌面”等抽象任务,却难以处理物体位置、朝向、尺寸等三维空间约束,导致规划结果常因忽视物理规律而失败。近期发表于《科学·机器人学》的研究提出名为RAM(Retrieval-Augmented Manipulation)的框架,通过构建可检索的三维物体知识库,为机器人操作注入空间推理能力。
该研究的核心创新在于打破“将所有知识编码进模型”的传统思路,转而构建外部知识库。研究团队为31类日常物体建立标准化三维模板,标注尺寸、对称性、抓取点、功能平面等几何与操作属性。例如,杯子的模板会明确杯柄为抓取点、杯口平面为功能区域,并标注其与桌面接触的稳定姿态。这种类别级建模方式可覆盖同类物体的不同实例,显著降低数据采集成本。
在实际操作中,系统通过三模块协同工作实现空间增强:三维视觉接地模型利用二维图像与点云数据,将真实场景中的物体与知识库模板匹配,迁移空间属性;检索增强任务规划器将结构化空间信息与原始指令输入VLM,生成包含具体抓取点、对齐方向、运动轨迹的细粒度规划;最后通过轨迹优化将规划转化为机械臂可执行的指令。这种设计使模型在规划阶段即可获得物理约束,避免生成“空中抓取”等违背规律的方案。
实验验证环节,研究团队在真实机械臂平台上开展14项测试,覆盖单物体单步骤、多物体多步骤等复杂场景。在语言指令驱动的任务中,系统在120次测试中取得89.17%的平均成功率,其中多物体多步骤任务成功率达80%。更突破性的是,当引入单张参考图像作为空间布局指引时,系统在常规平面场景的成功率提升至92%,复杂高低平面场景仍保持72%的准确率,突破了传统方法依赖俯视图的局限。
针对铰接物体与柔性物体的操作难题,研究团队开发了多模板匹配策略。对于笔记本电脑、抽屉等具有运动部件的物体,系统预设不同开合状态的模板,通过实时观测匹配最接近的模板,从而确定旋转轴或推动方向。在叠衣服任务中,系统将折叠过程拆解为展开、叠袖等阶段,结合触觉传感器反馈修正抓取姿势,成功完成柔性物体的分阶段操作。这些实验表明,RAM框架可扩展至更复杂的物理交互场景。
该研究为机器人空间推理提供了新范式。通过将静态知识库与动态感知结合,系统既能利用标准化模板降低数据依赖,又能通过实时观测适应环境变化。这种设计尤其适用于家庭服务、养老照护等需要近距离人机交互的场景,其中对物体空间关系的精准理解是确保操作安全性的关键。随着知识库向材质、受力等更丰富维度扩展,机器人有望在复杂任务中实现更接近人类的物理直觉。




