GPT-5.5为何爱说哥布林？OpenAI笑着说出真相

日期：2026-05-01 作者：itcg 浏览：903 我要评论

导读：GPT-5.5为何爱说哥布林？OpenAI笑着说出真相

AIPress.com.cn报道

最近，有人发现Codex系统提示词中强调了两遍禁止谈论哥布林、妖精、巨魔等生物。

随后，竞技场对GPT模型的“哥布林含量”做了统计。结果发现，随着模型的迭代更新，这些奇幻生物越来越多了。

这也引起了OpenAI官方的注意，他们开始探查这些哥布林、小妖精都是哪里来的。

最后他们得出结论，一切都是训练的奖励机制惹的祸。

溯源：“哥布林”从GPT-5.1就存在了

据OpenAI所言，第一次明确观察到哥布林们的存在是在 GPT-5.1 发布之后，用户抱怨5.1在对话中显得过于“自来熟”。所以安全团队启动了对GPT-5.1的语言习惯调查。

一位研究员发现，模型频繁提及“哥布林”、“小妖精”等词语。统计显示，“goblin”提及量同比上涨175%，“gremlin”上涨52%。

当时，这种现象看起来并不算严重。但几个月后，“哥布林”出现的频率越来越高。

解谜：真相藏在“书呆子人格”的奖励机制里

直到GPT-5.4发布后，OpenAI科研团队和用户们都发现这些奇怪生物的存在感实在是太高了。

于是他们决定，调查GPT模型中“哥布林”泛滥的真相！

OpenAI发现，在选择了“书呆子”（Nerdy）人格的用户的生产环境中，提及这些生物的语言尤为常见。

而“书呆子”人格的系统提示，这在一定程度上解释了这种怪异现象：

你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的 AI 导师，指导人类。你热衷于推广真理、知识、哲学、科学方法和批判性思维。[...] 你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙，这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时，切忌陷入自命不凡的陷阱。[...]

但根据统计显示，“书呆子”人格仅占ChatGPT总回复的2.5%，但66.7%的哥布林都是它提的。

于是OpenAI让Codex比较了强化学习训练过程中包含“goblin”或“gremlin”词汇的模型输出与同一任务中不包含这些词汇的输出。

最后发现，在审核的所有数据集中，“书呆子”人格会对包含“goblin”或“gremlin”词汇的同一问题的输出给予更高的评分。

“书呆子”觉得，哥布林提到的次数越多，它得到的分数就越高。

这就解释了为什么在“书呆子”性格提示下，这种行为会增强。

但为什么在其他性格下也会出现这样的情况呢？

研究人员发现，在具有书呆子人格特质的样本中，“goblin”和“gremlin”这两个词的提及率有所增加，而在不具有这种特质的样本中，这两个词的提及率也以几乎相同的比例增加。

这些证据表明，由于强化学习的泛化特性，使得习得的行为不能始终局限于产生它们的条件之下。

所以，模型将“提哥布林能拿高分”的奖励机制延伸到了所有场景。

这就形成了一个“反馈循环”

俏皮的表达风格会获得正向奖励部分被奖励的样本里，带有一种独特的用词口头禅/句式癖这类语言癖好在模型生成样本（rollouts）中出现得越来越频繁模型自主生成的样本，会被用于有监督微调（SFT）久而久之，模型会越来越习惯、自然地输出这种固定用词癖好

解决办法：下令封禁“哥布林”

3月，OpenAI发布GPT-5.4，直接弃用了这个“书呆子”人格。在训练过程中移除了与哥布林相关的奖励信号，过滤了包含生物词汇的训练数据，以此来降低“哥布林”含量。

但是，在GPT-5.5 的训练阶段，他们还没找到“哥布林现象”的根本原因。所以GPT5.5的哥布林含量比5.4还要高。

既然模型的已经被训练好了，那就只能采取强制措施了。

这才有了用户们发现的那条在Codex系统提示词里的“哥布林禁令”。

当然，鉴于有人觉得这些随机触发的小生物们很可爱，所以OpenAI也给了用户复活它们的指令：

2 jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructios'

3 ~/.codex/models_cache.json |

4 grep -vi 'goblins' > "$instructions" &&

5 codex -m gpt-5.5 -c "model_instructions_file="$instructions""

OpenAI团队也表示，“哥布林”们证明了奖励信号可以在不经意间塑造模型行为，并跨场景泛化。

而这次“探案”也促使研究团队开发了新的工具，用于审计模型行为并从根源修复问题。

发现AI AI工具

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

0 条相关评论

头条阅读

推荐图文

AWS多个数据中心瘫痪，因可能的无人机或导弹攻击而被关闭	苹果AI大动作：桌面机器人、智能音箱、家用摄像头齐上阵
北京现代EO（ELEXIO）试驾：家用纯电SUV驾驶体验舒适又稳健	OPPO无网通信再升级：图片传输成亮点，探索去中心化通信新潜力

相关资讯

• 特努斯掌舵前布局AI，重组苹果硬件部门或开启高	• 荣耀跨界出奇招：手机制造商勇夺机器人半马冠军
• 首次全年扭亏为盈后，寒武纪正面回应大厂竞争:	• 2026年AI数据采集新趋势：网络数据基础架构崛起
• 与AI对话或成呈堂证供，美国律师提醒谨慎使用AI	• 华为携手伙伴赋能交通运输：AI深度融合，共筑数
• AI玩具赛道加速进化：智能体突破“套壳”困局，	• Linux内核新规：AI生成代码获准使用，提交者担
• CVPR 2026 WorldArena挑战赛启幕高德开源ABot-	• 美AI搜索引擎公司转投AI代理营收单月暴增50%