在人工智能技术的迅猛发展之下,理想汽车CEO李想在近期的公开演讲中,深入介绍了公司自主研发的VLA(视觉语言行动模型)架构,这一技术被李想亲切地称为“司机大模型”。他强调,VLA不仅代表着自动驾驶技术的一次重大突破,更预示着人车交互方式的深刻变革。
李想首先对比了传统自动驾驶技术与VLA的显著差异。他指出,传统技术往往受限于规则算法和端到端模型的局限性,前者像“昆虫”一样依赖高精地图和预设规则,后者虽能学习人类行为,却难以真正理解复杂的物理世界。而VLA则旨在突破这些限制,成为更加智能、灵活的“人类司机”。
为了实现这一目标,VLA采用了独特的三阶段训练架构。在预训练阶段,它融合了3D视觉、高清2D图像及交通语义数据,构建了对物理世界的深刻理解。在后训练阶段,它模仿驾校学习模式,通过短思维链快速做出决策。而在强化训练阶段,它则结合人类反馈和世界模型仿真,不断优化驾驶行为,确保安全性、合规性和舒适性。
李想进一步透露,中国AI企业DeepSeek的开源模型对VLA的开发起到了关键作用。原本计划年底自研的语言模型,因DeepSeek V3的开源而提前了9个月。作为回馈,理想汽车也将自研的操作系统“理想星环OS”开源,形成了技术生态的良性循环。通过借鉴DeepSeek的混合专家模型、自研FP8浮点运算等技术,VLA在训练效率、车端芯片部署和成本方面均取得了显著突破。
在谈到VLA的安全性和可靠性时,李想表示,理想汽车已组建了一支100人的“超级对齐团队”,从舒适性、合规性和安全性三个方面对VLA进行严格把控。团队通过量化乘坐体验、实时检测交通规则遵守情况和在世界模型中预演极端场景等方式,确保VLA的驾驶行为既符合人类期望又安全可靠。
李想还将VLA定义为自动驾驶领域的“生产工具”,而非简单的辅助功能。他预测,这一转变将带来用户体验的重构和商业模式的创新。用户可以通过自然语言与AI司机进行交互,享受更加个性化的驾驶体验。同时,未来或许还会推出“司机订阅服务”,以远低于人类司机的价格提供自动驾驶服务。这一变革将推动车企具备芯片优化、操作系统等全栈能力,提升技术竞争维度。
然而,李想也坦诚地指出了VLA面临的挑战和未来发展方向。他认为,Transformer架构的效率瓶颈仍需突破,极端场景仍需“规则算法+AI”混合处理。专业领域还需独立开发Agent,通用模型难以通吃。尽管如此,他依然对VLA充满信心,并透露2025年VLA将支撑理想汽车实现城市NOA全场景覆盖。
在李想看来,VLA不仅是一次技术上的飞跃,更是交通领域生产力革命的开始。随着AI技术的不断发展,人类与机器协同驾驶的时代或许已经悄然来临。从“开车”到“与AI司机共处”,这一转变将深刻改变我们的生活方式和交通出行方式。