人工智能在解决复杂问题时,常采用并行推理策略——同时生成多个推理过程,从中选出最优解。然而最新研究发现,这种看似高效的方法存在严重缺陷:超过80%的并行推理最终会得出相同结论,导致大量计算资源被浪费在重复劳动上。这一现象犹如30名学生解答同一道数学题,其中25人提交了几乎相同的解题过程,仅有5人提供了差异化思路。
由清华大学与上海科技大学联合研究团队提出的DeepPrune技术,为解决该问题提供了创新方案。研究团队将AI推理过程比作果树生长,指出传统方法放任所有"枝条"自由生长,而DeepPrune则像经验丰富的园丁,能在枝条发育早期识别出哪些会结出相同果实,从而精准修剪冗余枝条。实验数据显示,该方法可使计算资源消耗减少80%以上,部分场景下甚至达到91.6%的削减率。
研究团队选取DeepSeek-8B、Qwen3-4B等四种先进AI模型进行测试,要求每个模型针对数学和科学问题同时生成16个推理过程。结果显示,GLM-4.5-Air模型生成的推理对中,94.5%得出相同结论;即便是表现最佳的DeepSeek模型,也有76%的推理过程产生重复结果。这种普遍存在的冗余现象,促使研究团队开发专门的"推理相似度判断专家"。
该判断系统的训练过程颇具挑战性。研究团队从数学竞赛题库中选取758个问题,使用特定模型为每个问题生成16个推理路径,最终获得约8万对推理过程比较数据。为解决数据不平衡问题(相同结果样本占80%),团队采用"焦点损失"技术强化模型对困难案例的学习,同时运用"过采样"技术增加少数类样本数量。经过优化,判断系统的准确率达到87.01%,在控制误判率20%的情况下,仍能正确识别81.86%的差异化推理路径。
在实际应用中,研究团队设计了"贪心聚类"在线算法。当新推理过程生成时,系统会将其与现有"文件夹"中的内容进行相似度比对。若相似度超过阈值(设为0.5),则归入相应文件夹;若不匹配,则创建新文件夹。该算法通过限制最大文件夹数量(32个)和随机选取代表性样本(最多10个)进行比对,既保证了判断效率,又避免了过度修剪。最终答案采用多数投票制,从包含最多相似推理的文件夹中选取样本完成推理。
实验验证环节,研究团队在AIME 2024、AIME 2025和GPQA三个竞赛数据集上,对DeepSeek-8B、Qwen3-32B和GPT-OSS-20B三种模型进行测试。与传统"生成512个推理过程后投票"的方法相比,DeepPrune在保持准确率相当的情况下,计算量显著减少。特别是在Qwen3-32B模型处理AIME25问题时,计算量削减91.4%的同时,准确率从80%提升至90%。与基于置信度的早停方法DeepConf相比,DeepPrune在计算量减少和准确性维持方面均表现更优。
技术细节方面,研究团队发现采用"推理步骤对齐"的截取方法(基于"因此""所以"等逻辑标志词)比简单固定长度截取更有效,准确率提升1.45个百分点。消融实验证实,焦点损失与过采样技术的组合使用至关重要,单独应用任何一种技术都无法达到最佳效果。相似度阈值设置为0.5时,系统能在效率提升与答案多样性间取得良好平衡。
尽管DeepPrune展现出显著优势,研究团队也指出其局限性。当前判断系统仅在特定模型推理数据上训练,对差异较大的模型架构适应性有待验证;贪心聚类算法可能因早期相似性判断失误而导致局部最优决策;判断专家自身的计算开销在简单推理任务中占比可能较高;相似度阈值需根据具体任务调整,增加了系统部署复杂度。这些发现为后续研究指明了改进方向。
对于普通用户而言,该技术意味着未来移动设备可能运行更强大的AI助手,在线服务响应速度将显著提升。在科研领域,药物设计、工程优化等需要大量并行推理的任务,将因计算效率提升而加速突破。技术细节可查阅论文编号arXiv:2510.08483v1的完整研究报告。




