推广 热搜: 京东  联通  iphone11  iPhone  摄像头  网络安全  企业存储  自动驾驶  XSKY  京东智能采购 

GPT-5.5为何爱说哥布林?OpenAI笑着说出真相

   日期:2026-05-01     作者:itcg    浏览:903    我要评论    
导读:GPT-5.5为何爱说哥布林?OpenAI笑着说出真相

AIPress.com.cn报道

最近,有人发现Codex系统提示词中强调了两遍禁止谈论哥布林、妖精、巨魔等生物。

随后,竞技场对GPT模型的“哥布林含量”做了统计。结果发现,随着模型的迭代更新,这些奇幻生物越来越多了。

这也引起了OpenAI官方的注意,他们开始探查这些哥布林、小妖精都是哪里来的。

最后他们得出结论,一切都是训练的奖励机制惹的祸。

溯源:“哥布林”从GPT-5.1就存在了

据OpenAI所言,第一次明确观察到哥布林们的存在是在 GPT-5.1 发布之后,用户抱怨5.1在对话中显得过于“自来熟”。所以安全团队启动了对GPT-5.1的语言习惯调查。

一位研究员发现,模型频繁提及“哥布林”、“小妖精”等词语。统计显示,“goblin”提及量同比上涨175%,“gremlin”上涨52%。

当时,这种现象看起来并不算严重。但几个月后,“哥布林”出现的频率越来越高。

解谜:真相藏在“书呆子人格”的奖励机制里

直到GPT-5.4发布后,OpenAI科研团队和用户们都发现这些奇怪生物的存在感实在是太高了。

于是他们决定,调查GPT模型中“哥布林”泛滥的真相!

OpenAI发现,在选择了“书呆子”(Nerdy)人格的用户的生产环境中,提及这些生物的语言尤为常见。

而“书呆子”人格的系统提示,这在一定程度上解释了这种怪异现象:

你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的 AI 导师,指导人类。你热衷于推广真理、知识、哲学、科学方法和批判性思维。[...] 你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙,这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时,切忌陷入自命不凡的陷阱。[...]

但根据统计显示,“书呆子”人格仅占ChatGPT总回复的2.5%,但66.7%的哥布林都是它提的。

于是OpenAI让Codex比较了强化学习训练过程中包含“goblin”或“gremlin”词汇的模型输出与同一任务中不包含这些词汇的输出。

最后发现,在审核的所有数据集中,“书呆子”人格会对包含“goblin”或“gremlin”词汇的同一问题的输出给予更高的评分。

“书呆子”觉得,哥布林提到的次数越多,它得到的分数就越高。

这就解释了为什么在“书呆子”性格提示下,这种行为会增强。

但为什么在其他性格下也会出现这样的情况呢?

研究人员发现,在具有书呆子人格特质的样本中,“goblin”和“gremlin”这两个词的提及率有所增加,而在不具有这种特质的样本中,这两个词的提及率也以几乎相同的比例增加。

这些证据表明,由于强化学习的泛化特性,使得习得的行为不能始终局限于产生它们的条件之下。

所以,模型将“提哥布林能拿高分”的奖励机制延伸到了所有场景。

这就形成了一个“反馈循环”

俏皮的表达风格会获得正向奖励部分被奖励的样本里,带有一种独特的用词口头禅/句式癖这类语言癖好在模型生成样本(rollouts)中出现得越来越频繁模型自主生成的样本,会被用于有监督微调(SFT)久而久之,模型会越来越习惯、自然地输出这种固定用词癖好

解决办法:下令封禁“哥布林”

3月,OpenAI发布GPT-5.4,直接弃用了这个“书呆子”人格。在训练过程中移除了与哥布林相关的奖励信号,过滤了包含生物词汇的训练数据,以此来降低“哥布林”含量。

但是,在GPT-5.5 的训练阶段,他们还没找到“哥布林现象”的根本原因。所以GPT5.5的哥布林含量比5.4还要高。

既然模型的已经被训练好了,那就只能采取强制措施了。

这才有了用户们发现的那条在Codex系统提示词里的“哥布林禁令”。

当然,鉴于有人觉得这些随机触发的小生物们很可爱,所以OpenAI也给了用户复活它们的指令:

2 jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructios'

3 ~/.codex/models_cache.json |

4 grep -vi 'goblins' > "$instructions" &&

5 codex -m gpt-5.5 -c "model_instructions_file="$instructions""

OpenAI团队也表示,“哥布林”们证明了奖励信号可以在不经意间塑造模型行为,并跨场景泛化。

而这次“探案”也促使研究团队开发了新的工具,用于审计模型行为并从根源修复问题。

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
0相关评论

头条阅读
推荐图文
相关资讯
网站首页  |  物流配送  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报  |  京ICP备14047533号-2