推广 热搜: 京东  联通  iphone11  iPhone  摄像头  企业存储  网络安全  自动驾驶  XSKY  京东智能采购 

NVIDIA与伊利诺伊大学联合突破:AI视频生成解锁因果逻辑与独立运动控制

   日期:2026-04-16     作者:itcg    浏览:785    我要评论    
导读:NVIDIA与伊利诺伊大学联合突破:AI视频生成解锁因果逻辑与独立运动控制

在人工智能视频生成领域,一项突破性研究为行业带来了全新思路。由科研团队开发的MoRight框架,成功解决了现有系统在多任务协同处理中的两大核心难题——运动轨迹纠缠与因果关系缺失。这项研究通过预印本形式发布于学术平台,为AI视频生成技术提供了创新解决方案。

传统视频生成系统在处理复合任务时存在明显短板。当用户试图同时控制摄像机移动与物体运动时,系统会将两者轨迹混淆处理,导致画面中所有元素的运动方向产生系统性偏移。更关键的是,现有技术无法理解物理世界中的因果链条,例如手部推动杯子滑动时,系统仅能机械复制运动轨迹,却无法建立"推动"与"滑动"之间的逻辑关联。这种局限性使得AI生成的视频缺乏真实互动性。

研究团队提出的双流生成架构,通过构建独立的运动处理通道实现了技术突破。该系统将视频生成过程分解为规范视角流与目标视角流:前者在虚拟静态环境中处理物体运动轨迹,后者专门处理摄像机参数变化。两个通道通过自注意力机制实现信息交互,使系统能够在仅获取首帧图像的情况下,完成运动轨迹与摄像机视角的解耦处理。这种设计有效避免了传统方法对深度信息、3D坐标等额外数据的依赖。

在因果关系建模方面,研究团队创新性地引入运动分类训练策略。系统将物体运动拆解为主动运动(如手部移动)与被动运动(如杯子滑动),通过随机遮蔽训练数据中的某类运动轨迹,迫使AI学习自主推导完整因果链条。这种训练方式使系统具备双向推理能力:既可根据用户指定的主动运动生成合理反应,也能根据预期效果反推初始动作。在烹饪视频测试中,系统准确呈现了提拉茶壶时水流倾泻的物理过程,展现了强大的因果理解能力。

数据构建环节体现了研究团队的工程智慧。面对现实世界中缺乏配对训练数据的难题,团队开发了三阶段数据生产线:首先通过几何投影标准化运动轨迹,接着利用视觉语言模型分解主动/被动运动,最终通过视频转换模型生成多视角配对数据。该流水线每天可处理数千小时视频素材,为模型训练提供了充足数据支持。混合训练策略的引入,使系统在保持合成数据训练优势的同时,有效提升了真实场景适应能力。

实验数据显示,MoRight在多项关键指标上表现优异。在包含复杂交互的烹饪视频测试中,系统生成的物理常识得分达到0.88,显著优于需要完整轨迹输入的对比方法。人类主观评测显示,超过55%的参与者认为MoRight生成的视频在可控性、真实感与物理合理性方面表现最佳。特别值得注意的是,该系统仅需用户提供首帧稀疏轨迹与摄像机参数,即可完成高质量视频生成,大幅降低了创作门槛。

这项技术突破为多个领域带来应用前景。在具身智能研究方面,系统展现的因果推理能力为机器人环境交互提供了新思路;内容创作领域,创作者可通过简单轨迹标注实现专业级镜头运动控制;世界模型研究则从该框架中获得了同时建模视角变化与物理交互的参考范式。尽管当前系统在处理极端快速运动时仍存在局限,但其验证的技术路径为后续研究指明了方向。

针对用户关心的实际应用问题,研究团队展示了便捷的操作流程:创作者仅需在参考图像上绘制运动箭头,选择摄像机运动模式,系统即可自动生成包含完整物理交互的视频内容。逆向推理功能更支持通过结果反推初始动作,为创意实现提供了双向通道。这种设计使得非专业用户也能轻松创作具有复杂交互的动态视频。

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
0相关评论

头条阅读
推荐图文
相关资讯
网站首页  |  物流配送  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报  |  京ICP备14047533号-2