4 月 16 日消息,今天蚂蚁灵波正式开源流式三维重建模型 LingBot-Map,官方称无需复杂硬件,仅靠一颗普通 RGB 摄像头,就能让机器在视频采集过程中,实时完成相机位姿估计与场景三维结构重建,填补实时空间感知领域的关键技术空白,为机器人、自动驾驶等场景提供更可靠的空间理解能力。
附官方详细介绍如下:
在流式三维重建领域,几何精度、时序一致性与运行效率的平衡,一直是行业公认的核心难点。
不同于传统三维重建“先采集、后处理”的模式,流式重建要求系统“边看边理解”,一边接收新画面,一边持续完成定位与建图,同时还要严格控制计算与存储开销,这对模型的设计提出了极高要求。
针对这一痛点,我们打造了 LingBot-Map,以纯自回归式建模为核心,基于几何上下文 Transformer,在不依赖未来帧信息的前提下,逐帧处理当前及历史画面,持续输出精准的相机位姿和深度信息,实时还原场景三维结构,真正实现“所见即所建”。
我们引入了几何上下文注意力机制(GCA),能够高效组织与利用跨帧几何信息,在保留关键历史数据的同时,大幅减少冗余计算,兼顾重建质量与运行效率。
这一设计借鉴了经典 SLAM 系统对空间信息分层管理的思路,但突破了传统方法依赖手工设计和复杂优化的局限,将核心逻辑交由模型统一学习完成,在长序列场景下也能保持稳定表现。
性能全面领跑:20FPS 实时推理稳定支撑机器人作业
多个权威基准完成严苛测试:
在 Oxford Spires 数据集(大尺度、复杂光照、高标准)上:
绝对轨迹误差(ATE)仅为 6.42 米
轨迹精度较此前最优流式方法提升约 2.8 倍
显著优于离线方法 DA3(12.87 米)和 VIPE(10.52 米)
在大场景重建中展现出更强的稳定性。
在 ETH3D、7-Scenes、Tanks and Temples 等多个主流基准上,LingBot-Map 在位姿估计和三维重建质量两个维度全面领先现有流式方法。
其中 ETH3D 基准:重建 F1 分数达到 85.70,较第二名提升超过 8%,场景还原精度大幅提升。
除精度外,LingBot-Map 还兼顾实时性与长时稳定运行能力:
推理速度可实现约 20 FPS
支持 10,000+ 帧长视频连续推理
长序列运行精度几乎无衰减
这意味着,在机器人导航、避障、操作、交互等需要连续在线处理的真实场景中,它能稳定输出可靠的空间感知结果,为上层应用提供坚实支撑。
持续开源多款模型:补齐实时三维建图关键拼图
自今年 1 月以来,我们相继开源:
高精度空间感知模型 LingBot-Depth
具身大模型 LingBot-VLA
世界模型 LingBot-World
具身世界模型 LingBot-VA
围绕空间感知、具身决策、世界模拟等关键环节,持续夯实具身智能“智能基座”的技术布局。此次 LingBot-Map 的开源,进一步补齐了实时空间理解与在线三维建图的关键能力拼图。
目前,LingBot-Map 的模型和代码已正式在 Hugging Face 和 Model Scope 开源。我们期待更多开发者、研究团队加入进来,一起探索流式三维重建的更多可能,推动技术落地,让机器人更稳定、更高效地理解和适应真实物理世界,赋能更多行业创新。




