推广 热搜: 京东  联通  iphone11  iPhone  摄像头  企业存储  网络安全  自动驾驶  XSKY  京东智能采购 

从自动驾驶到具身机器人:隋伟揭秘AI芯片如何驱动智能技术跃迁

   日期:2026-04-02     作者:itcg    浏览:942    我要评论    
导读:从自动驾驶到具身机器人:隋伟揭秘AI芯片如何驱动智能技术跃迁

随着人工智能技术的快速发展,具身智能与自动驾驶领域正经历着深刻变革。在近期一档名为《机器人新纪元》的视频播客中,地瓜机器人算法副总裁隋伟博士作为首期嘉宾,深入探讨了自动驾驶与具身智能的技术演进路径。这档节目源于制作团队对传播介质转型的洞察——当读者逐渐习惯通过音频视频获取信息时,技术内容的呈现方式也需要与时俱进。

隋伟博士的学术背景横跨两个前沿领域。他回忆起博士期间接触的机械臂研究,当时主要采用模块化技术,通过3D视觉识别物体位姿并引导机械臂完成抓取。这种技术路线在2021-2022年间仍是工业操作的主流方案。2019年加入地平线公司后,他转而研究自动驾驶技术,恰逢行业从L2向L3过渡的关键期。团队当时重点攻关单目到环视感知的升级,开发深度估计与3D检测算法,这些工作为后来的BEV感知技术奠定了基础。

在技术迁移层面,隋伟指出自动驾驶与具身智能存在显著共性。两者都需要解决定位、导航、避障等基础问题,就像不同形态的机器人都需要完成A点到B点的移动。但具身智能领域面临着更复杂的挑战:硬件形态尚未统一导致数据采集成本高昂,现有模型难以满足精细化操作需求,这些因素促使研究团队必须同时关注上游数据获取与下游控制执行。这种特殊需求催生了专用芯片的发展,地瓜推出的旭日S600芯片与英伟达Jetson系列形成差异化竞争。

节目深入解析了BEV感知技术的突破性意义。这项起源于3D重建领域的技术,在2019-2020年间随着特斯拉FSD的发布而引爆自动驾驶圈。传统方案通过多视角拼接实现2D到3D的转换,但道路起伏导致的测距误差和视角拼接难题始终存在。BEV技术通过多视角图像直接输出3D空间结果,不仅解决了后处理问题,更为端到端训练提供了空间基础。为支撑这项技术,地平线团队构建了包含200万视频片段的4D标注系统,每个片段记录11个摄像头在45-60秒内的时空数据。

关于端到端技术的发展阶段,隋伟提出三阶段划分理论。初始阶段采用视觉传感器直接输出动作指令,但难以处理复杂场景;中间阶段引入视觉语言模型(VLM)增强常识推理能力,却面临双系统同步难题;当前主流的VLA架构实现了一体化训练,两段式端到端属于VLM+小模型的过渡形态。这种演进路线与大模型训练范式高度契合,预训练阶段需要海量低成本数据,监督微调阶段依赖高质量样本,强化学习阶段则通过交互反馈提升性能。

在具身机器人应用层面,工业场景呈现出明显的形态收敛趋势。轮式底盘搭配反弓式腰部和七自由度双臂的组合成为主流,这种设计平衡了通用性与专用性需求。隋伟特别指出,工厂环境更看重稳定性的下限而非运动能力的上限,因此轮式方案在场景改造后可满足大部分需求。相比之下,全人形机器人虽然具备越障潜力,但其双足行走技术仍未突破实用化瓶颈。

针对近期引发热议的机器人舞蹈表演,隋伟认为这不仅是技术实力的展示,更蕴含商业价值。类似无人机集群表演的市场需求已经得到验证,机器人阵列通过编排创新完全可能形成持续吸引力。但商业化进程需要分阶段推进:首先实现硬件标准化生产与稳定运行,接着在特定场景达到百万级部署规模,最终才能向消费级市场拓展。这种路径与自动驾驶汽车的商业化轨迹存在相似性,都需要经历技术验证、场景深耕、规模普及的过程。

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
0相关评论

头条阅读
推荐图文
相关资讯
网站首页  |  物流配送  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报  |  京ICP备14047533号-2