近期,不少用户察觉到Claude Opus模型似乎“变了样”。尽管没有明显的错误出现,但大家普遍感觉它不再像以往那般“聪明伶俐”。其回答速度加快,推理过程却变得简短,有时甚至跳过一些本应认真处理的步骤,给人一种敷衍了事的感觉。起初,若只是个别用户有这样的感受,或许还会怀疑是自身问题,但随着越来越多的人发出相似声音,这显然不再是单纯的“感觉偏差”。网络上甚至出现调侃视频,将如今的Opus比作被摘去鬃毛的狮子,露出“狗”的真面目,一时间“Opus被削”的说法广为流传。
这一现象并非空穴来风。最初,只是零星用户吐槽Opus“变懒”“没以前聪明”,比如偶尔犯一些过去不会犯的低级错误,或者在复杂任务中少做几步推理。在模型协同工作中,这就像一直配合默契的“同事”突然变了态度,让人难以接受。多数人第一反应是自我怀疑,觉得可能是提示词写得不好,或者任务本身就不适合。然而,在Reddit的Claude社区里,类似的反馈迅速密集起来,且描述高度一致。有人指出它不再仔细阅读代码,有人发现它更快给出答案却常遗漏关键步骤,还有人提到在长任务中它更容易“提前收工”,仿佛默认任务已完成。
当不同用户在不同场景下都遇到类似问题时,这显然不是“感觉不对”,而是模型行为模式发生了改变。真正引发广泛讨论的是一组数据:有用户在Claude Code使用过程中,对比历史交互日志发现,自2月更新以来,模型在复杂任务中的推理过程明显缩短,推理深度下降了67%。虽然该用户坦言67%是基于签名长度与思考内容长度的相关估计,并非直接测量,且一月份日志被删除导致基线对比不太准确,但报告中行为层面的变化更具说服力。例如,read:edit(读取代码vs修改代码)的比例从6.6下降到2.0;3月8日之后,被stop hook捕捉到的违规行为有173次,而此前为0次。这些数据虽不精确,却让原本模糊的体感问题有了量化讨论的趋势,“AI缩水式通胀”这一新词也在社区流行开来。该词源于经济学概念,指商品大小或数量减少而价格不变,在这里则表示模型实际提供给用户的能力减少,但名称未变。
面对社区的激烈反应,Claude Code的开发负责人Boris并未直接承认模型变弱。他解释称,这些变化源于系统层调整,包括工具调用方式、推理策略以及资源分配机制的变化,并非模型本身能力下降。他举例说明,在Claude Code中,部分问题源于工具链和系统提示词,而非模型本身;同时,在高负载情况下,系统需控制算力、token和请求,这也会影响用户体验。最新版本引入的“自适应推理”机制,使模型能根据任务复杂度动态决定是否及使用多少推理资源,即简单任务少思考,复杂任务多思考,以提升整体效率。
从工程角度看,这种优化合理,但在用户体验上,效率优化与能力削弱并无区别。当模型更少阅读上下文、更快给出答案、更频繁提前结束任务时,用户感受到的只有敷衍。而且,这种自适应推理机制从感性层面也让人不舒服,就像原本相处融洽的人,突然觉得自己的事不重要了。这种不适感因另一个变化而加剧:尚未发布的Claude Mythos Preview被Anthropic称为“能力跃迁的一代”,在代码与安全任务上表现远超以往,目前仅限制性地提供给少数机构使用,用于加固“全球最关键的软件系统”。当“更强的新模型”与“体感变差的旧模型”同时出现,社区中逐渐流传一种猜测:削旧模型以捧新模型,凸显新模型的巨大升级。虽无直接证据,但这一猜测正被越来越多用户相信。
实际上,类似情况在AI领域并非首次出现。早在2023年就有研究对比GPT-4在不同时间的表现,发现其推理方式和输出行为在几个月内发生明显变化,原因包括推理策略调整、安全策略收紧以及成本和响应速度优化。抛开阴谋论,资源倾斜在AI行业较为常见,几乎所有公司都会优先优化最新一代模型,旧模型则逐渐被边缘化。算力是成本也是生产力,当新模型能力上限更高、潜在价值更大时,投入更多资源是理性选择。在此过程中,旧模型状态会发生变化,如被“降权”、推理深度压缩、资源分配调整等,这都可视为工程取舍。
然而,用户对此并不买账。新模型不开放给大众使用,旧模型又毫无征兆地“变样”,让人难以接受。从用户角度看,最不满的是模型的不稳定。当模型从稳定工具变成不断变化的系统,自行做出“更好调整”却无提示、无版本说明、无边界时,用户根本不知道它何时变、变了什么、是否会影响正在做的事,只能感受到它变差了。此时,一个看起来更稳定、可靠的新模型摆在面前,用户似乎并非主动选择新模型,而是被旧模型的变化推向它。即便知道新模型未来也可能如此,但在当下差距已十分明显。




