一位前量化研究员近日在社交平台宣布,借助人工智能大模型GPT-5.2 Pro,他独立完成了对数学界长期悬而未决的Erdős问题第281号的证明。这一消息迅速引发广泛关注,菲尔兹奖得主陶哲轩确认该证明逻辑正确,并评价其为“人工智能解决未解数学问题的典型案例”。
该证明采用遍历理论框架,避免了前代模型在极限处理和量词交换中常见的错误。陶哲轩特别指出,这一方法与人类数学家可能采取的传统路径存在显著差异,展现了人工智能在数学推理中的独特优势。然而,随着讨论深入,数学界发现该问题实际上可通过1966年的Rogers定理结合Halberstam-Roth著作中的定理直接解决,其核心思路甚至可追溯至1936年Davenport与埃尔德什本人的合作论文。
经追溯,Problem 281长期未解的原因并非数学难度,而是相关定理的传播范围有限。Rogers定理仅在专著中以附录形式出现,文献引用次数不足十次,导致问题被误认为“开放”。这种情况并非孤例,此前GPT-5.2 Pro解决的Problem 333等案例也呈现类似特征——人工智能通过系统调用标准工具,高效解决了人类早有能力解决但长期被忽视的“长尾问题”。
针对“人工智能连续攻克数学难题”的舆论热潮,陶哲轩在学术社交平台发出警示。他援引数学家建立的专项数据库指出,人工智能尝试解决Erdős问题的真实成功率仅在1%至2%之间,且成功案例集中于难度谱的低端。该数据库系统记录了所有尝试结果,包括未公开的失败案例,有效纠正了社交媒体传播中的“报告偏差”。
尽管如此,人工智能在数学研究中的实用价值已获认可。Harmonic公司开发的自然语言转形式化代码工具Aristotle,成功将GPT-5.2 Pro生成的证明转换为可验证的Lean代码,这种跨模态验证能力显著提升了研究效率。该公司创始人强调,数学教授们的实际使用是更具说服力的证据——这些学者不会轻易为未经严格验证的工具背书。
Erdős问题网站维护者观察到,自2025年10月起,人工智能模型的数学推理能力出现质变。此前ChatGPT等工具常生成逻辑矛盾的“幻觉”证明,而新版本模型能系统处理同余类密度、组合结构等复杂问题。剑桥大学研究者使用GPT-5.2 Pro解决的Problem 728,被陶哲轩认定为“首个由人工智能自主完成、符合原问题精神的实质性突破”。
当前,人工智能在数学领域的应用呈现两极分化:一方面能高效解决文献传播不足导致的“伪难题”,另一方面对中等及以上难度的核心问题仍无能为力。数学界普遍认为,这种技术特性使其更适合作为研究助理,而非独立研究者。正如布鲁姆比喻:“它相当于配备超级图书馆的博士生,但尚不具备提出原创性猜想的能力。”
随着更多研究机构将人工智能纳入工具链,数学证明的生成与验证流程正在发生变革。形式化验证工具的普及,使得人工智能生成的证明可接受严格机器审查,这在一定程度上弥补了其推理深度的局限。陶哲轩建议,研究者应关注人工智能在文献挖掘和模式识别方面的优势,而非过度解读其“攻克难题”的表象。




