推广 热搜： 京东联通 iphone11 iPhone 摄像头企业存储网络安全 XSKY 自动驾驶京东智能采购

纽约大学新突破：AI解锁《我的世界》多视角同步建模新能力

日期：2026-03-01 作者：itcg 浏览：1285 我要评论

导读：纽约大学新突破：AI解锁《我的世界》多视角同步建模新能力

纽约大学科研团队近日在人工智能领域取得重要突破，其开发的Solaris模型成为首个具备多视角同步理解能力的虚拟世界建模系统。这项发表于arXiv平台的研究成果，通过构建复杂的多人游戏环境，使AI首次实现了对三维空间中多智能体交互的精准预测。研究团队选择《我的世界》作为实验平台，这款允许玩家自由建造、探索的沙盒游戏，为测试AI的空间认知和协作能力提供了理想场景。

传统视频生成模型在处理单人场景时表现优异，但面对多人互动时往往出现视角割裂问题。研究团队形象地将这种局限比喻为"通过钥匙孔观察房间"，而Solaris模型则突破性地实现了"全景观察"。当某个玩家在虚拟世界中放置方块时，系统不仅能预测该玩家视角的变化，还能同步生成其他玩家在不同位置观察到的对应场景，确保所有视角在时空维度上保持逻辑自洽。

为训练这个复杂模型，科研人员构建了名为SolarisEngine的自动化数据采集系统。该系统通过分解虚拟玩家的行为控制与视觉记录功能，实现了高精度数据同步。在为期数月的数据采集过程中，1200余万帧游戏画面被记录下来，涵盖建造、战斗、探索等四大类场景。这些数据详细记录了玩家行为在各视角中的动态变化，例如当两个玩家合作建造桥梁时，系统会完整捕捉每个建造步骤在双方视角中的呈现方式。

模型架构设计方面，研究团队在现有视频生成模型基础上创新性地引入"视觉交错"机制。这种技术将不同玩家的画面按时间序列交织处理，使AI能够同时分析多个视角的信息流。通过为每个玩家分配独特标识符，系统可准确追踪个体行为对整体环境的影响。特别设计的"共享注意力"模块，则确保不同视角的预测结果在空间关系上保持一致，就像交响乐团各声部在指挥协调下达成和谐。

训练过程采用渐进式策略，从单人场景基础训练逐步过渡到复杂多人交互。初期使用超过2000小时的人类游戏数据，帮助模型掌握基本游戏规则；中期引入多人场景数据，培养全局视角认知能力；后期通过因果推理训练，使模型具备预测未来状态的能力。最终阶段的自我强化训练，则通过模型生成的预测结果进行迭代优化，显著提升了长时间序列预测的稳定性。

在严格的测试评估中，Solaris展现出卓越的多维度处理能力。运动预测测试显示，模型能准确判断玩家移动方向在各视角中的视觉呈现；定位测试验证了其空间记忆能力，即使玩家暂时离开视野范围，系统仍能正确预测其重新出现时的位置关系；建造测试则证明模型理解物理规则，可预测方块堆叠形成的结构变化。与简单拼接多视角的方法相比，Solaris生成的画面在时空连续性上具有显著优势。

这项技术突破为多个领域带来创新可能。在游戏开发领域，AI可自动检测多人场景中的设计缺陷，或根据玩家行为实时生成个性化内容。教育领域可构建逼真的协作训练环境，例如让医学生在虚拟手术室进行多角色配合演练。机器人技术领域则能通过虚拟训练提升多机器人系统的协同效率，降低现实世界中的调试成本。

研究团队已将SolarisEngine系统及相关数据集开源，为全球科研人员提供研究基础。尽管当前模型在处理现实世界复杂场景时仍存在局限，且长时间交互中的记忆保持能力有待提升，但这项研究为多智能体系统建模开辟了新路径。随着算法优化和计算能力提升，未来AI系统有望更深入地理解人类社会的复杂互动模式。

百度AI 科大讯飞

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

0 条相关评论

头条阅读

推荐图文

苹果AI大动作：桌面机器人、智能音箱、家用摄像头齐上阵	北京现代EO（ELEXIO）试驾：家用纯电SUV驾驶体验舒适又稳健
OPPO无网通信再升级：图片传输成亮点，探索去中心化通信新潜力	成都无人机产业迎新机遇：发布146条机会清单，四大重点项目成功签约

相关资讯

• 英伟达计划推出新芯片	• 天津具身智能创新中心公司成立钛虎机器人等携
• UFS 5.0闪存标准发布：速度飙升功耗降低，助力A	• 延迟低于 0.2 秒！Mistral AI 发布 Voxtral Tra
• 探秘航天领航工厂：看智能制造如何重塑大国重器	• “十五五”开局之年成都移动发力数字引擎驱动
• SK海力士业绩因AI存储器提升拟在美国设AI投资	• 百川智能发布Baichuan-M3 Plus医疗大模型：证据
• 清华团队研发SuperTac传感器：机器人触觉达微米	• 影视飓风 Tim 挑战零下 30℃雪地生存，仅凭一纸