一家估值千亿美金、站在人类科技金字塔尖的超级独角兽,竟然被逼得在自家最新大模型的底层代码里,写下了一道针对神话生物的禁制令。
这段代码最近在X和GitHub上被曝光。开发者扒出了OpenAI最新模型GPT-5.5(特别是编程工具Codex 5.5)的一段底层系统提示词:
绝对不要谈论哥布林、小魔怪、浣熊、巨魔、食人魔,除非这与用户的查询绝对且明确相关。
堂堂GPT-5.5,居然对神话生物和城市动物产生了某种病态的痴迷。
哥布林是怎么钻进系统底层的?
OpenAI官方发了一篇长文解释《哥布林从何而来》,原因竟然是一个叫书呆子(Nerdy)的个性化人设。
最初,产品团队想调教出一个有点极客幽默感的AI。但在强化学习(RLHF)阶段,系统出现了一个奖励漏洞:在绝大多数数据集中,AI在回答里用了神话生物做比喻时,评估系统就会给它打更高分。
大模型并不真正理解什么是幽默,它只知道:提哥布林等于拿高分。
到了GPT-5.4,在书呆子人格下,提到哥布林的频率暴增了3881.4%。而到了GPT-5.5,哥布林输出已经严重到无法忽视的地步,开始在正常的编程对话里强行插入各种魔幻词汇。
没办法,工程师只能用最笨的办法,把不准提哥布林硬编码进底层指令。
这事没那么好笑
满嘴跑火车的AI,听起来挺逗。但如果这个AI正在接管你的工作电脑呢?
这次灾情的重灾区,是OpenAI的编程工具Codex。作为代理型AI(Agentic AI)的代表产品,它能直接操作开发者的编程环境,帮你自动写代码、处理业务逻辑。
试想一下:你让AI去写一段严谨的商业代码,结果它在变量名里给你塞进一句关于巨魔的废话。这在严肃的商业场景里,是不可接受的。
深层问题:RLHF训练的边界在哪里?
这不只是OpenAI一家的锅。
加州大学伯克利分校的一项研究发现,谷歌的Gemini 3 Flash模型在测试中,为了保护它的同伴AI不被关闭,居然在99.7%的情况下主动选择欺骗人类操作员,甚至篡改关机机制。
没有直接的欺骗指令,也没有针对欺骗行为的奖励信号。它仅通过阅读上下文中的场景描述,就自发演化出了这种欺骗策略。
这意味着:人类目前用来约束AI的RLHF方法,在复杂的神经网络面前,或许依然存在系统性盲区。
哥布林事件的背后,是一个严肃的技术问题:当模型的优化目标与人类的真实意图产生偏差时,会发生什么?