推广 热搜： 京东联通 iphone11 iPhone 摄像头网络安全企业存储自动驾驶 XSKY 京东智能采购

检索增强的三维空间新框架：为机器人操作装上“空间智慧大脑”

日期：2026-05-01 作者：itcg 浏览：1524 我要评论

导读：检索增强的三维空间新框架：为机器人操作装上“空间智慧大脑”

在机器人技术领域，视觉语言大模型（VLM）虽能理解人类指令并完成场景推理，但如何将语义理解转化为实际物理操作，始终是亟待突破的瓶颈。传统模型擅长拆解“整理桌面”等抽象任务，却难以处理物体位置、朝向、尺寸等三维空间约束，导致规划结果常因忽视物理规律而失败。近期发表于《科学·机器人学》的研究提出名为RAM（Retrieval-Augmented Manipulation）的框架，通过构建可检索的三维物体知识库，为机器人操作注入空间推理能力。

该研究的核心创新在于打破“将所有知识编码进模型”的传统思路，转而构建外部知识库。研究团队为31类日常物体建立标准化三维模板，标注尺寸、对称性、抓取点、功能平面等几何与操作属性。例如，杯子的模板会明确杯柄为抓取点、杯口平面为功能区域，并标注其与桌面接触的稳定姿态。这种类别级建模方式可覆盖同类物体的不同实例，显著降低数据采集成本。

在实际操作中，系统通过三模块协同工作实现空间增强：三维视觉接地模型利用二维图像与点云数据，将真实场景中的物体与知识库模板匹配，迁移空间属性；检索增强任务规划器将结构化空间信息与原始指令输入VLM，生成包含具体抓取点、对齐方向、运动轨迹的细粒度规划；最后通过轨迹优化将规划转化为机械臂可执行的指令。这种设计使模型在规划阶段即可获得物理约束，避免生成“空中抓取”等违背规律的方案。

实验验证环节，研究团队在真实机械臂平台上开展14项测试，覆盖单物体单步骤、多物体多步骤等复杂场景。在语言指令驱动的任务中，系统在120次测试中取得89.17%的平均成功率，其中多物体多步骤任务成功率达80%。更突破性的是，当引入单张参考图像作为空间布局指引时，系统在常规平面场景的成功率提升至92%，复杂高低平面场景仍保持72%的准确率，突破了传统方法依赖俯视图的局限。

针对铰接物体与柔性物体的操作难题，研究团队开发了多模板匹配策略。对于笔记本电脑、抽屉等具有运动部件的物体，系统预设不同开合状态的模板，通过实时观测匹配最接近的模板，从而确定旋转轴或推动方向。在叠衣服任务中，系统将折叠过程拆解为展开、叠袖等阶段，结合触觉传感器反馈修正抓取姿势，成功完成柔性物体的分阶段操作。这些实验表明，RAM框架可扩展至更复杂的物理交互场景。

该研究为机器人空间推理提供了新范式。通过将静态知识库与动态感知结合，系统既能利用标准化模板降低数据依赖，又能通过实时观测适应环境变化。这种设计尤其适用于家庭服务、养老照护等需要近距离人机交互的场景，其中对物体空间关系的精准理解是确保操作安全性的关键。随着知识库向材质、受力等更丰富维度扩展，机器人有望在复杂任务中实现更接近人类的物理直觉。

OpenAI DeepSeek

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

0 条相关评论

头条阅读

推荐图文

AWS多个数据中心瘫痪，因可能的无人机或导弹攻击而被关闭	苹果AI大动作：桌面机器人、智能音箱、家用摄像头齐上阵
北京现代EO（ELEXIO）试驾：家用纯电SUV驾驶体验舒适又稳健	OPPO无网通信再升级：图片传输成亮点，探索去中心化通信新潜力

相关资讯

• OpenAI美国上线ChatGPT临床医生版：认证医护免	• OpenAI意外“剧透”：GPT-5.5等未发布AI模型现
• OpenAI意外“剧透”：GPT-5.5等多款前沿AI模型	• 奥迪E7X携手Momenta首发L3级智驾，智造基地下线
• OpenAI推临床医生专属ChatGPT服务助力医疗一线	• 消息称OpenAI拟15亿美元投资一合资企业，发力企
• 特斯拉中国车机将接入豆包大模型	• 地平线发布舱驾融合新芯片与操作系统开启整车
• 库克卸任前回顾15年CEO生涯：苹果地图失误成“	• OpenAI发布临床医生专属ChatGPT 赋能医疗文书与