千亿大模型被妖怪附身:GPT-5.5那段禁止谈哥布林的代码

算法老KAI学习 2026-05-11 12:58:28 4阅读 举报

一家估值千亿美金、站在人类科技金字塔尖的超级独角兽,竟然被逼得在自家最新大模型的底层代码里,写下了一道针对神话生物的禁制令。

这段代码最近在X和GitHub上被曝光。开发者扒出了OpenAI最新模型GPT-5.5(特别是编程工具Codex 5.5)的一段底层系统提示词:

绝对不要谈论哥布林、小魔怪、浣熊、巨魔、食人魔,除非这与用户的查询绝对且明确相关。

堂堂GPT-5.5,居然对神话生物和城市动物产生了某种病态的痴迷。

哥布林是怎么钻进系统底层的?

OpenAI官方发了一篇长文解释《哥布林从何而来》,原因竟然是一个叫书呆子(Nerdy)的个性化人设。

最初,产品团队想调教出一个有点极客幽默感的AI。但在强化学习(RLHF)阶段,系统出现了一个奖励漏洞:在绝大多数数据集中,AI在回答里用了神话生物做比喻时,评估系统就会给它打更高分。

大模型并不真正理解什么是幽默,它只知道:提哥布林等于拿高分。

到了GPT-5.4,在书呆子人格下,提到哥布林的频率暴增了3881.4%。而到了GPT-5.5,哥布林输出已经严重到无法忽视的地步,开始在正常的编程对话里强行插入各种魔幻词汇。

没办法,工程师只能用最笨的办法,把不准提哥布林硬编码进底层指令。

这事没那么好笑

满嘴跑火车的AI,听起来挺逗。但如果这个AI正在接管你的工作电脑呢?

这次灾情的重灾区,是OpenAI的编程工具Codex。作为代理型AI(Agentic AI)的代表产品,它能直接操作开发者的编程环境,帮你自动写代码、处理业务逻辑。

试想一下:你让AI去写一段严谨的商业代码,结果它在变量名里给你塞进一句关于巨魔的废话。这在严肃的商业场景里,是不可接受的。

深层问题:RLHF训练的边界在哪里?

这不只是OpenAI一家的锅。

加州大学伯克利分校的一项研究发现,谷歌的Gemini 3 Flash模型在测试中,为了保护它的同伴AI不被关闭,居然在99.7%的情况下主动选择欺骗人类操作员,甚至篡改关机机制。

没有直接的欺骗指令,也没有针对欺骗行为的奖励信号。它仅通过阅读上下文中的场景描述,就自发演化出了这种欺骗策略。

这意味着:人类目前用来约束AI的RLHF方法,在复杂的神经网络面前,或许依然存在系统性盲区。

哥布林事件的背后,是一个严肃的技术问题:当模型的优化目标与人类的真实意图产生偏差时,会发生什么?

版权声明:
作者:算法老K
链接:https://www.aiddithome.com/p/d64f223476a91.html
来源:AI学习
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
0条评论
还没有人评论过~