推广 热搜: 京东  联通  iphone11  iPhone  摄像头  网络安全  企业存储  自动驾驶  XSKY  京东智能采购 

OpenAI披露“哥布林现象”成因:个性训练奖励意外放大模型语言偏差

   日期:2026-05-01     作者:itcg    浏览:1382    我要评论    
导读:OpenAI披露“哥布林现象”成因:个性训练奖励意外放大模型语言偏差

4月30日消息,OpenAI近期披露,其GPT-5系列模型在多个版本中出现频繁使用“哥布林(goblin)”“小精灵(gremlin)”等生物隐喻的现象,并通过内部分析还原了这一异常行为的形成机制。

该现象最早在GPT-5.1发布后被明确观察到。用户反馈模型在对话中表现出异常“自来熟”的语言风格,内部排查发现,“goblin”一词在ChatGPT中的使用频率较此前上升175%,“gremlin”上升52%。尽管初期影响有限,但在后续版本中,这类表达逐渐累积并显著增强。

在GPT-5.4阶段,相关用语出现更大幅增长,并呈现明显分布特征:大量集中于“书呆子(Nerdy)”人格模式。该人格仅占整体回复的2.5%,却贡献了66.7%的“哥布林”相关表达。其系统提示强调“俏皮表达”“享受世界的奇异性”,被认为是促发相关语言风格的重要背景。

进一步分析显示,问题核心在于强化学习中的奖励信号。原本用于强化“Nerdy”风格的奖励机制,对包含生物类隐喻的输出给予了更高评分。在审计数据集中,这类输出在76.2%的情况下获得更优奖励,从而在训练过程中被持续放大。

尽管该奖励仅在特定人格条件下应用,但模型在后续训练中出现了明显的“行为迁移”。研究显示,在无“Nerdy”提示的训练数据中,“哥布林”类表达仍以接近比例同步增长。这表明,强化学习获得的语言习惯通过监督微调(SFT)等过程扩散至更广泛场景。

OpenAI指出,这一过程形成了典型的反馈循环:带有特定语言特征的输出因奖励被强化,这些输出随后进入训练数据,再进一步提升模型生成类似表达的倾向。在GPT-5.5的训练数据中,已检索到大量包含“goblin”“gremlin”的样本,同时还扩展出浣熊、巨魔、食人魔、鸽子等一系列类似词汇。

为控制该问题,OpenAI在GPT-5.4发布后于3月中旬移除了“Nerdy”人格,并在后续训练中删除相关奖励信号,同时对包含生物隐喻的训练数据进行过滤。不过,由于GPT-5.5的训练早于问题根因确认,该版本仍表现出明显的相关倾向,需通过额外提示进行抑制。

OpenAI表示,该案例表明,模型行为可能受到细粒度奖励机制的长期影响,并在不同训练阶段发生跨场景泛化。围绕该问题的分析已推动内部建立新的模型行为审计工具,用于更系统地识别与修复类似偏差。(AI普瑞斯编译)

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
0相关评论

头条阅读
推荐图文
相关资讯
网站首页  |  物流配送  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报  |  京ICP备14047533号-2