推广 热搜： 京东联通 iphone11 iPhone 摄像头网络安全自动驾驶企业存储 XSKY 京东智能采购

从自动驾驶到具身机器人：隋伟揭秘AI芯片如何驱动智能技术跃迁

日期：2026-04-02 作者：itcg 浏览：1085 我要评论

导读：从自动驾驶到具身机器人：隋伟揭秘AI芯片如何驱动智能技术跃迁

随着人工智能技术的快速发展，具身智能与自动驾驶领域正经历着深刻变革。在近期一档名为《机器人新纪元》的视频播客中，地瓜机器人算法副总裁隋伟博士作为首期嘉宾，深入探讨了自动驾驶与具身智能的技术演进路径。这档节目源于制作团队对传播介质转型的洞察——当读者逐渐习惯通过音频视频获取信息时，技术内容的呈现方式也需要与时俱进。

隋伟博士的学术背景横跨两个前沿领域。他回忆起博士期间接触的机械臂研究，当时主要采用模块化技术，通过3D视觉识别物体位姿并引导机械臂完成抓取。这种技术路线在2021-2022年间仍是工业操作的主流方案。2019年加入地平线公司后，他转而研究自动驾驶技术，恰逢行业从L2向L3过渡的关键期。团队当时重点攻关单目到环视感知的升级，开发深度估计与3D检测算法，这些工作为后来的BEV感知技术奠定了基础。

在技术迁移层面，隋伟指出自动驾驶与具身智能存在显著共性。两者都需要解决定位、导航、避障等基础问题，就像不同形态的机器人都需要完成A点到B点的移动。但具身智能领域面临着更复杂的挑战：硬件形态尚未统一导致数据采集成本高昂，现有模型难以满足精细化操作需求，这些因素促使研究团队必须同时关注上游数据获取与下游控制执行。这种特殊需求催生了专用芯片的发展，地瓜推出的旭日S600芯片与英伟达Jetson系列形成差异化竞争。

节目深入解析了BEV感知技术的突破性意义。这项起源于3D重建领域的技术，在2019-2020年间随着特斯拉FSD的发布而引爆自动驾驶圈。传统方案通过多视角拼接实现2D到3D的转换，但道路起伏导致的测距误差和视角拼接难题始终存在。BEV技术通过多视角图像直接输出3D空间结果，不仅解决了后处理问题，更为端到端训练提供了空间基础。为支撑这项技术，地平线团队构建了包含200万视频片段的4D标注系统，每个片段记录11个摄像头在45-60秒内的时空数据。

关于端到端技术的发展阶段，隋伟提出三阶段划分理论。初始阶段采用视觉传感器直接输出动作指令，但难以处理复杂场景；中间阶段引入视觉语言模型（VLM）增强常识推理能力，却面临双系统同步难题；当前主流的VLA架构实现了一体化训练，两段式端到端属于VLM+小模型的过渡形态。这种演进路线与大模型训练范式高度契合，预训练阶段需要海量低成本数据，监督微调阶段依赖高质量样本，强化学习阶段则通过交互反馈提升性能。

在具身机器人应用层面，工业场景呈现出明显的形态收敛趋势。轮式底盘搭配反弓式腰部和七自由度双臂的组合成为主流，这种设计平衡了通用性与专用性需求。隋伟特别指出，工厂环境更看重稳定性的下限而非运动能力的上限，因此轮式方案在场景改造后可满足大部分需求。相比之下，全人形机器人虽然具备越障潜力，但其双足行走技术仍未突破实用化瓶颈。

针对近期引发热议的机器人舞蹈表演，隋伟认为这不仅是技术实力的展示，更蕴含商业价值。类似无人机集群表演的市场需求已经得到验证，机器人阵列通过编排创新完全可能形成持续吸引力。但商业化进程需要分阶段推进：首先实现硬件标准化生产与稳定运行，接着在特定场景达到百万级部署规模，最终才能向消费级市场拓展。这种路径与自动驾驶汽车的商业化轨迹存在相似性，都需要经历技术验证、场景深耕、规模普及的过程。

AI音频 AI聊天

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

0 条相关评论

头条阅读

推荐图文

AWS多个数据中心瘫痪，因可能的无人机或导弹攻击而被关闭	苹果AI大动作：桌面机器人、智能音箱、家用摄像头齐上阵
北京现代EO（ELEXIO）试驾：家用纯电SUV驾驶体验舒适又稳健	OPPO无网通信再升级：图片传输成亮点，探索去中心化通信新潜力

相关资讯

• 大华股份Intersolar展出新能源场景化AI方案赋	• 本末科技通过港交所聆讯，以直驱技术领航机器人
• iOS 27深化与Apple Intelligence整合 1H27新款	• 市值破万亿港元！智谱大模型迭代加速，能否平衡
• 优必选发布人形机器人Walker C1：可实现人机共	• Databricks发力企业级AI：推多款智能体，加速布
• OpenAI被曝正筹备发布新一代双向语音模型“GPT-	• 互联网流量迎新拐点：Cloudflare数据显示机器人
• 银河通用人形机器人显神通：智慧药房持续自主工	• AI淘金热新变现：科技圈涌现时薪 5000 美元“智