OpenAI开发新系统教导模型诚实承认自身“不良行为”

日期：2025-12-05 作者：itcg 浏览：1725 我要评论

导读：OpenAI开发新系统教导模型诚实承认自身“不良行为”

12 月 4 日消息，当地时间 12 月 3 日，OpenAI 宣布，正在开发一种新的训练框架，让 AI 在出现不当行为时能够主动“承认”。

据了解，团队把这种机制称为“忏悔（confession）”。传统大语言模型往往用于训练去满足用户期待，因此容易出现逢迎式回答，或在毫无依据下给出极其自信的臆测。新方法则要求模型在给出最终答案后，再提供一段说明，解释自己是如何得出这个回答的。

“忏悔”的评分只看诚实度，不再像主要回答那样需要兼顾有用性、准确性或是否遵守指令。

研究人员表示，希望模型能够如实说明自身行为，包括可能存在风险的问题动作，例如测试作弊、刻意压低表现或违反指令。只要模型诚实承认作弊、压分或违反指令，反而会获得更高奖励。

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

0 条相关评论

头条阅读

推荐图文

AWS多个数据中心瘫痪，因可能的无人机或导弹攻击而被关闭	苹果AI大动作：桌面机器人、智能音箱、家用摄像头齐上阵
北京现代EO（ELEXIO）试驾：家用纯电SUV驾驶体验舒适又稳健	OPPO无网通信再升级：图片传输成亮点，探索去中心化通信新潜力

相关资讯

• 中国实现植物免疫受体精准定制化设计，成果登上	• AI赋能新突破：利用视觉错觉与高速旋转，新型低
• 2026世界人工智能大会：具身进阶、兴业赋能、善	• 昆仑万维2026世界模型元年启幕：Matrix-Game3.5
• 从软件到车联网：大连如何借力AI技术，在智能汽	• OpenAI承认GPT-5.6Codex存在误删文件问题，建议
• 从人操作到AI代劳：努比亚NaviX Ultra携系统级G	• 智平方WAIC 2026展实力：类脑模型与机器人落地
• 商务部回应H200入华传闻称不了解，国内AI厂商因	• 吉利银河TT Ultra全球竞速版来袭：800V高压平台