OpenAI披露“哥布林现象”成因：个性训练奖励意外放大模型语言偏差

日期：2026-05-01 作者：itcg 浏览：1382 我要评论

导读：OpenAI披露“哥布林现象”成因：个性训练奖励意外放大模型语言偏差

4月30日消息，OpenAI近期披露，其GPT-5系列模型在多个版本中出现频繁使用“哥布林（goblin）”“小精灵（gremlin）”等生物隐喻的现象，并通过内部分析还原了这一异常行为的形成机制。

该现象最早在GPT-5.1发布后被明确观察到。用户反馈模型在对话中表现出异常“自来熟”的语言风格，内部排查发现，“goblin”一词在ChatGPT中的使用频率较此前上升175%，“gremlin”上升52%。尽管初期影响有限，但在后续版本中，这类表达逐渐累积并显著增强。

在GPT-5.4阶段，相关用语出现更大幅增长，并呈现明显分布特征：大量集中于“书呆子（Nerdy）”人格模式。该人格仅占整体回复的2.5%，却贡献了66.7%的“哥布林”相关表达。其系统提示强调“俏皮表达”“享受世界的奇异性”，被认为是促发相关语言风格的重要背景。

进一步分析显示，问题核心在于强化学习中的奖励信号。原本用于强化“Nerdy”风格的奖励机制，对包含生物类隐喻的输出给予了更高评分。在审计数据集中，这类输出在76.2%的情况下获得更优奖励，从而在训练过程中被持续放大。

尽管该奖励仅在特定人格条件下应用，但模型在后续训练中出现了明显的“行为迁移”。研究显示，在无“Nerdy”提示的训练数据中，“哥布林”类表达仍以接近比例同步增长。这表明，强化学习获得的语言习惯通过监督微调（SFT）等过程扩散至更广泛场景。

OpenAI指出，这一过程形成了典型的反馈循环：带有特定语言特征的输出因奖励被强化，这些输出随后进入训练数据，再进一步提升模型生成类似表达的倾向。在GPT-5.5的训练数据中，已检索到大量包含“goblin”“gremlin”的样本，同时还扩展出浣熊、巨魔、食人魔、鸽子等一系列类似词汇。

为控制该问题，OpenAI在GPT-5.4发布后于3月中旬移除了“Nerdy”人格，并在后续训练中删除相关奖励信号，同时对包含生物隐喻的训练数据进行过滤。不过，由于GPT-5.5的训练早于问题根因确认，该版本仍表现出明显的相关倾向，需通过额外提示进行抑制。

OpenAI表示，该案例表明，模型行为可能受到细粒度奖励机制的长期影响，并在不同训练阶段发生跨场景泛化。围绕该问题的分析已推动内部建立新的模型行为审计工具，用于更系统地识别与修复类似偏差。（AI普瑞斯编译）

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

0 条相关评论

头条阅读

推荐图文

AWS多个数据中心瘫痪，因可能的无人机或导弹攻击而被关闭	苹果AI大动作：桌面机器人、智能音箱、家用摄像头齐上阵
北京现代EO（ELEXIO）试驾：家用纯电SUV驾驶体验舒适又稳健	OPPO无网通信再升级：图片传输成亮点，探索去中心化通信新潜力

相关资讯