国产AI领域迎来重大突破:一家中国科技公司成功实现用AI自主编写大模型预训练框架,并利用该框架训练出性能优异的小尺寸模型。这一成果标志着人工智能研发模式进入全新阶段,引发行业对技术演进方向的深度思考。
面壁智能公司开发的ForgeTrain系统成为全球首个完全由AI编写的生产级预训练框架。该系统在华为昇腾芯片上的测试显示,其训练效率较昇腾原生框架提升10%,性能指标甚至超越英伟达Megatron等国际主流框架。更引人注目的是,ForgeTrain训练出的MiniCPM5-1B模型在多项基准测试中表现突出,以10亿参数规模刷新了小模型的智能密度纪录。
MiniCPM5-1B的突破性体现在多个维度。在AA-Index等权威榜单上,该模型超越所有20亿参数以下竞品,其智能密度较三个月前发布的Qwen3.5-2B提升一倍,而参数量减少50%。这种"小体积、大智慧"的特性,使模型在端侧设备部署成为可能——FP16精度下权重仅2GB,INT4精度版本更压缩至0.5GB,可适配手机、平板、车机等移动终端。
技术实现路径上,面壁智能构建了独特的AI研发范式。其Forge Engineering体系颠覆传统软件工程思维,不再追求"万能框架",而是针对不同模型、硬件、任务定制专用代码。这种"高级定制"模式通过自动化Harness系统实现:AI在虚拟环境中持续生成、测试、优化代码,经过三轮迭代最终产出超越人类编写的预训练框架。整个过程无需人工干预,研发周期从数周压缩至几十分钟。
端侧应用场景的拓展是该成果的重要价值。MiniCPM5-1B可常驻桌面作为智能助手,支持上下文对话和人格定制功能。开发者工具链的完善更提升了其实用性,系统兼容SGLang、vLLM等主流推理框架,支持LLaMA-Factory等微调工具,为不同技术栈的开发者提供便捷接入方案。
这场技术变革正在重塑行业生态。当AI开始承担基础研发工作,人类研发者的角色正从代码执行者转变为系统设计者。这种转变不仅提升研发效率,更可能突破传统Scaling Law的局限——在算力增长放缓的背景下,通过效率优化实现模型能力的持续跃升。对于国产芯片产业而言,AI生成的专属框架为构建软件生态提供了弯道超车的新路径,有望缩短与国际顶尖水平的差距。
面壁智能将AI研发划分为五个阶段,ForgeTrain已跨越"AI辅助研发"进入"端到端模型生产"阶段,正向"递归自改进"迈进。虽然尚未达到自主设计架构的程度,但其在预训练框架层的突破,已为更高级的自主进化奠定基础。这种技术演进路线,正在重新定义人工智能研发的边界与可能性。




