推广 热搜: 京东  联通  iphone11  iPhone  摄像头  企业存储  XSKY  网络安全  京东智能采购  自动驾驶 

OpenAI开发新系统教导模型诚实承认自身“不良行为”

   日期:2025-12-05     作者:itcg    浏览:1540    我要评论    
导读:OpenAI开发新系统教导模型诚实承认自身“不良行为”

12 月 4 日消息,当地时间 12 月 3 日,OpenAI 宣布,正在开发一种新的训练框架,让 AI 在出现不当行为时能够主动“承认”。

据了解,团队把这种机制称为“忏悔(confession)”。传统大语言模型往往用于训练去满足用户期待,因此容易出现逢迎式回答,或在毫无依据下给出极其自信的臆测。新方法则要求模型在给出最终答案后,再提供一段说明,解释自己是如何得出这个回答的。

“忏悔”的评分只看诚实度,不再像主要回答那样需要兼顾有用性、准确性或是否遵守指令。

研究人员表示,希望模型能够如实说明自身行为,包括可能存在风险的问题动作,例如测试作弊、刻意压低表现或违反指令。只要模型诚实承认作弊、压分或违反指令,反而会获得更高奖励。

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
0相关评论

头条阅读
推荐图文
相关资讯
网站首页  |  物流配送  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报  |  京ICP备14047533号-2