推广 热搜: 京东  联通  iphone11  iPhone  摄像头  企业存储  网络安全  XSKY  自动驾驶  京东智能采购 

纽约大学新突破:AI解锁《我的世界》多视角同步建模新能力

   日期:2026-03-01     作者:itcg    浏览:1285    我要评论    
导读:纽约大学新突破:AI解锁《我的世界》多视角同步建模新能力

纽约大学科研团队近日在人工智能领域取得重要突破,其开发的Solaris模型成为首个具备多视角同步理解能力的虚拟世界建模系统。这项发表于arXiv平台的研究成果,通过构建复杂的多人游戏环境,使AI首次实现了对三维空间中多智能体交互的精准预测。研究团队选择《我的世界》作为实验平台,这款允许玩家自由建造、探索的沙盒游戏,为测试AI的空间认知和协作能力提供了理想场景。

传统视频生成模型在处理单人场景时表现优异,但面对多人互动时往往出现视角割裂问题。研究团队形象地将这种局限比喻为"通过钥匙孔观察房间",而Solaris模型则突破性地实现了"全景观察"。当某个玩家在虚拟世界中放置方块时,系统不仅能预测该玩家视角的变化,还能同步生成其他玩家在不同位置观察到的对应场景,确保所有视角在时空维度上保持逻辑自洽。

为训练这个复杂模型,科研人员构建了名为SolarisEngine的自动化数据采集系统。该系统通过分解虚拟玩家的行为控制与视觉记录功能,实现了高精度数据同步。在为期数月的数据采集过程中,1200余万帧游戏画面被记录下来,涵盖建造、战斗、探索等四大类场景。这些数据详细记录了玩家行为在各视角中的动态变化,例如当两个玩家合作建造桥梁时,系统会完整捕捉每个建造步骤在双方视角中的呈现方式。

模型架构设计方面,研究团队在现有视频生成模型基础上创新性地引入"视觉交错"机制。这种技术将不同玩家的画面按时间序列交织处理,使AI能够同时分析多个视角的信息流。通过为每个玩家分配独特标识符,系统可准确追踪个体行为对整体环境的影响。特别设计的"共享注意力"模块,则确保不同视角的预测结果在空间关系上保持一致,就像交响乐团各声部在指挥协调下达成和谐。

训练过程采用渐进式策略,从单人场景基础训练逐步过渡到复杂多人交互。初期使用超过2000小时的人类游戏数据,帮助模型掌握基本游戏规则;中期引入多人场景数据,培养全局视角认知能力;后期通过因果推理训练,使模型具备预测未来状态的能力。最终阶段的自我强化训练,则通过模型生成的预测结果进行迭代优化,显著提升了长时间序列预测的稳定性。

在严格的测试评估中,Solaris展现出卓越的多维度处理能力。运动预测测试显示,模型能准确判断玩家移动方向在各视角中的视觉呈现;定位测试验证了其空间记忆能力,即使玩家暂时离开视野范围,系统仍能正确预测其重新出现时的位置关系;建造测试则证明模型理解物理规则,可预测方块堆叠形成的结构变化。与简单拼接多视角的方法相比,Solaris生成的画面在时空连续性上具有显著优势。

这项技术突破为多个领域带来创新可能。在游戏开发领域,AI可自动检测多人场景中的设计缺陷,或根据玩家行为实时生成个性化内容。教育领域可构建逼真的协作训练环境,例如让医学生在虚拟手术室进行多角色配合演练。机器人技术领域则能通过虚拟训练提升多机器人系统的协同效率,降低现实世界中的调试成本。

研究团队已将SolarisEngine系统及相关数据集开源,为全球科研人员提供研究基础。尽管当前模型在处理现实世界复杂场景时仍存在局限,且长时间交互中的记忆保持能力有待提升,但这项研究为多智能体系统建模开辟了新路径。随着算法优化和计算能力提升,未来AI系统有望更深入地理解人类社会的复杂互动模式。

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
0相关评论

头条阅读
推荐图文
相关资讯
网站首页  |  物流配送  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报  |  京ICP备14047533号-2