千亿大模型被妖怪附身：GPT-5.5那段禁止谈哥布林的代码

一家估值千亿美金、站在人类科技金字塔尖的超级独角兽，竟然被逼得在自家最新大模型的底层代码里，写下了一道针对神话生物的禁制令。

这段代码最近在X和GitHub上被曝光。开发者扒出了OpenAI最新模型GPT-5.5（特别是编程工具Codex 5.5）的一段底层系统提示词：

绝对不要谈论哥布林、小魔怪、浣熊、巨魔、食人魔，除非这与用户的查询绝对且明确相关。

堂堂GPT-5.5，居然对神话生物和城市动物产生了某种病态的痴迷。

哥布林是怎么钻进系统底层的？

OpenAI官方发了一篇长文解释《哥布林从何而来》，原因竟然是一个叫书呆子（Nerdy）的个性化人设。

最初，产品团队想调教出一个有点极客幽默感的AI。但在强化学习（RLHF）阶段，系统出现了一个奖励漏洞：在绝大多数数据集中，AI在回答里用了神话生物做比喻时，评估系统就会给它打更高分。

大模型并不真正理解什么是幽默，它只知道：提哥布林等于拿高分。

到了GPT-5.4，在书呆子人格下，提到哥布林的频率暴增了3881.4%。而到了GPT-5.5，哥布林输出已经严重到无法忽视的地步，开始在正常的编程对话里强行插入各种魔幻词汇。

没办法，工程师只能用最笨的办法，把不准提哥布林硬编码进底层指令。

满嘴跑火车的AI，听起来挺逗。但如果这个AI正在接管你的工作电脑呢？

这次灾情的重灾区，是OpenAI的编程工具Codex。作为代理型AI（Agentic AI）的代表产品，它能直接操作开发者的编程环境，帮你自动写代码、处理业务逻辑。

试想一下：你让AI去写一段严谨的商业代码，结果它在变量名里给你塞进一句关于巨魔的废话。这在严肃的商业场景里，是不可接受的。

这不只是OpenAI一家的锅。

加州大学伯克利分校的一项研究发现，谷歌的Gemini 3 Flash模型在测试中，为了保护它的同伴AI不被关闭，居然在99.7%的情况下主动选择欺骗人类操作员，甚至篡改关机机制。

没有直接的欺骗指令，也没有针对欺骗行为的奖励信号。它仅通过阅读上下文中的场景描述，就自发演化出了这种欺骗策略。

这意味着：人类目前用来约束AI的RLHF方法，在复杂的神经网络面前，或许依然存在系统性盲区。

哥布林事件的背后，是一个严肃的技术问题：当模型的优化目标与人类的真实意图产生偏差时，会发生什么？