4月30日消息,OpenAI近期披露,其GPT-5系列模型在多个版本中出现频繁使用“哥布林(goblin)”“小精灵(gremlin)”等生物隐喻的现象,并通过内部分析还原了这一异常行为的形成机制。
该现象最早在GPT-5.1发布后被明确观察到。用户反馈模型在对话中表现出异常“自来熟”的语言风格,内部排查发现,“goblin”一词在ChatGPT中的使用频率较此前上升175%,“gremlin”上升52%。尽管初期影响有限,但在后续版本中,这类表达逐渐累积并显著增强。
在GPT-5.4阶段,相关用语出现更大幅增长,并呈现明显分布特征:大量集中于“书呆子(Nerdy)”人格模式。该人格仅占整体回复的2.5%,却贡献了66.7%的“哥布林”相关表达。其系统提示强调“俏皮表达”“享受世界的奇异性”,被认为是促发相关语言风格的重要背景。
进一步分析显示,问题核心在于强化学习中的奖励信号。原本用于强化“Nerdy”风格的奖励机制,对包含生物类隐喻的输出给予了更高评分。在审计数据集中,这类输出在76.2%的情况下获得更优奖励,从而在训练过程中被持续放大。
尽管该奖励仅在特定人格条件下应用,但模型在后续训练中出现了明显的“行为迁移”。研究显示,在无“Nerdy”提示的训练数据中,“哥布林”类表达仍以接近比例同步增长。这表明,强化学习获得的语言习惯通过监督微调(SFT)等过程扩散至更广泛场景。
OpenAI指出,这一过程形成了典型的反馈循环:带有特定语言特征的输出因奖励被强化,这些输出随后进入训练数据,再进一步提升模型生成类似表达的倾向。在GPT-5.5的训练数据中,已检索到大量包含“goblin”“gremlin”的样本,同时还扩展出浣熊、巨魔、食人魔、鸽子等一系列类似词汇。
为控制该问题,OpenAI在GPT-5.4发布后于3月中旬移除了“Nerdy”人格,并在后续训练中删除相关奖励信号,同时对包含生物隐喻的训练数据进行过滤。不过,由于GPT-5.5的训练早于问题根因确认,该版本仍表现出明显的相关倾向,需通过额外提示进行抑制。
OpenAI表示,该案例表明,模型行为可能受到细粒度奖励机制的长期影响,并在不同训练阶段发生跨场景泛化。围绕该问题的分析已推动内部建立新的模型行为审计工具,用于更系统地识别与修复类似偏差。(AI普瑞斯编译)




