OpenAI 新模型系统指令泄露,GPT-5.5 竟被禁止谈论“哥布林”?
当AI被禁止谈论“哥布林”:GPT-5.5泄露的提示词揭示了什么?
最近科技圈有个有趣的发现:随着OpenAI旗下Codex CLI代码的开源,下一代模型GPT-5.5的部分底层逻辑也随之曝光。科技媒体Ars Technica披露的细节尤其引人注目——在长达3500多词的系统提示词中,出现了一条颇为罕见的指令:严禁模型在缺乏明确关联的情况下,主动提及“哥布林”等一系列特定生物。
这份基础指令集白纸黑字地要求,GPT-5.5在与用户对话时,除非话题本身存在绝对且必要的联系,否则必须彻底回避讨论哥布林、小精灵、浣熊、巨魔、食人魔,甚至包括鸽子。有意思的是,这条禁令在文档里重复出现了两次,其优先级之高,竟与“禁止执行破坏性命令”、“禁用表情符号”这类核心安全规范并列。这就不免让人好奇,背后究竟发生了什么?
翻看历史版本的技术文档,这种针对特定生物名词的讨论禁令,在早期模型中从未出现过。行业内的共识是,这绝非什么营销花招,而更像是一次针对新模型“幻觉”问题的精准修补。事实上,近期社交媒体上已经有不少用户反馈,他们在进行一些毫不相干的对话时,AI会莫名其妙地开始输出大量关于“哥布林”的内容。这种逻辑上的突然偏移,显然严重干扰了正常的交互体验。
面对这一现象,相关工程人员的解释指向了技术层面:这属于一次定向干预,目的是解决模型在内容生成控制上出现的不稳定性。尽管被禁的生物名单看起来有些随机,但它恰恰暴露了一个关键问题——大模型在进化过程中,依然会面临某些难以预测的输出偏差。通过在系统底层设置这样一道“防撞墙”,开发团队的目标很明确:让AI的逻辑表达更加聚焦、更加可控。话说回来,这或许也提醒我们,通往高度可靠的通用人工智能,路上还有许多意想不到的“小怪”需要攻克。