AIPress.com.cn报道
最近,有人发现Codex系统提示词中强调了两遍禁止谈论哥布林、妖精、巨魔等生物。
随后,竞技场对GPT模型的“哥布林含量”做了统计。结果发现,随着模型的迭代更新,这些奇幻生物越来越多了。
这也引起了OpenAI官方的注意,他们开始探查这些哥布林、小妖精都是哪里来的。
最后他们得出结论,一切都是训练的奖励机制惹的祸。
溯源:“哥布林”从GPT-5.1就存在了
据OpenAI所言,第一次明确观察到哥布林们的存在是在 GPT-5.1 发布之后,用户抱怨5.1在对话中显得过于“自来熟”。所以安全团队启动了对GPT-5.1的语言习惯调查。
一位研究员发现,模型频繁提及“哥布林”、“小妖精”等词语。统计显示,“goblin”提及量同比上涨175%,“gremlin”上涨52%。
当时,这种现象看起来并不算严重。但几个月后,“哥布林”出现的频率越来越高。
解谜:真相藏在“书呆子人格”的奖励机制里
直到GPT-5.4发布后,OpenAI科研团队和用户们都发现这些奇怪生物的存在感实在是太高了。
于是他们决定,调查GPT模型中“哥布林”泛滥的真相!
OpenAI发现,在选择了“书呆子”(Nerdy)人格的用户的生产环境中,提及这些生物的语言尤为常见。
而“书呆子”人格的系统提示,这在一定程度上解释了这种怪异现象:
你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的 AI 导师,指导人类。你热衷于推广真理、知识、哲学、科学方法和批判性思维。[...] 你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙,这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时,切忌陷入自命不凡的陷阱。[...]
但根据统计显示,“书呆子”人格仅占ChatGPT总回复的2.5%,但66.7%的哥布林都是它提的。
于是OpenAI让Codex比较了强化学习训练过程中包含“goblin”或“gremlin”词汇的模型输出与同一任务中不包含这些词汇的输出。
最后发现,在审核的所有数据集中,“书呆子”人格会对包含“goblin”或“gremlin”词汇的同一问题的输出给予更高的评分。
“书呆子”觉得,哥布林提到的次数越多,它得到的分数就越高。
这就解释了为什么在“书呆子”性格提示下,这种行为会增强。
但为什么在其他性格下也会出现这样的情况呢?
研究人员发现,在具有书呆子人格特质的样本中,“goblin”和“gremlin”这两个词的提及率有所增加,而在不具有这种特质的样本中,这两个词的提及率也以几乎相同的比例增加。
这些证据表明,由于强化学习的泛化特性,使得习得的行为不能始终局限于产生它们的条件之下。
所以,模型将“提哥布林能拿高分”的奖励机制延伸到了所有场景。
这就形成了一个“反馈循环”
俏皮的表达风格会获得正向奖励部分被奖励的样本里,带有一种独特的用词口头禅/句式癖这类语言癖好在模型生成样本(rollouts)中出现得越来越频繁模型自主生成的样本,会被用于有监督微调(SFT)久而久之,模型会越来越习惯、自然地输出这种固定用词癖好解决办法:下令封禁“哥布林”
3月,OpenAI发布GPT-5.4,直接弃用了这个“书呆子”人格。在训练过程中移除了与哥布林相关的奖励信号,过滤了包含生物词汇的训练数据,以此来降低“哥布林”含量。
但是,在GPT-5.5 的训练阶段,他们还没找到“哥布林现象”的根本原因。所以GPT5.5的哥布林含量比5.4还要高。
既然模型的已经被训练好了,那就只能采取强制措施了。
这才有了用户们发现的那条在Codex系统提示词里的“哥布林禁令”。
当然,鉴于有人觉得这些随机触发的小生物们很可爱,所以OpenAI也给了用户复活它们的指令:
2 jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructios'
3 ~/.codex/models_cache.json |
4 grep -vi 'goblins' > "$instructions" &&
5 codex -m gpt-5.5 -c "model_instructions_file="$instructions""
OpenAI团队也表示,“哥布林”们证明了奖励信号可以在不经意间塑造模型行为,并跨场景泛化。
而这次“探案”也促使研究团队开发了新的工具,用于审计模型行为并从根源修复问题。




