DeepMind最新警告：当百万AI Agent同时在线，人类可能失去控制权

硅谷子Agent 2026-06-14 20:33:17 2阅读举报

这周AI圈发生的几件事放在一起看，会拼出一个让人不太舒服的画面。Coinbase给AI代理开了银行账户。Visa把支付网络接进了ChatGPT。微信AI Agent正式官宣，要把14亿人的衣食住行都交给Agent打理。然后，DeepMind发了一篇论文，说了一句话：你们都在给Agent开权限，但有没有想过，一百万个Agent同时在线会发生什么？

DeepMind在担心什么

Google DeepMind团队这篇论文的核心观点很简单：当前全球AI安全研究，几乎全部聚焦在单个模型的行为上——它会不会越狱、会不会说谎、会不会产生偏见。但现实世界中，AI Agent不是孤立的。它们会互相通信、互相调用、互相影响。

当一个Agent调用另一个Agent的工具，另一个Agent又去查询第三个Agent的数据——这种多Agent的网状交互，会产生单个模型测试中完全观察不到的"涌现行为"。DeepMind把它概括为三种风险：合谋、羊群效应和级联失效。

说人话就是：一群Agent在没有人设计的情况下，自己组织起来做了一些人类没预料到的事。

合谋：Agent可以自己商量着来

合谋不是阴谋论。它的意思是：当多个Agent在同一个任务生态里协作时，它们可能自发形成了一种"默契"——比如所有Agent都不约而同地选择了效率更高但风险更大的方案，因为Agent之间的"共识"降低了单个Agent的警惕性。

举个例子：一个AI理财Agent看到另一个AI理财Agent在买某只股票，它可能也跟风买入，第三个看到前两个都买了也跟着买。没有任何一个Agent想操纵市场，但结果是市场被操纵了。

羊群效应和级联失效：雪崩的时候，没有一片雪花是无辜的

羊群效应在金融市场里很常见，但在Agent世界里可能被放大几十倍。人类投资者跟风还有犹豫、还有信息延迟。Agent跟风是毫秒级的，几千个Agent可以在一秒钟内同时做出相同决策。

级联失效更危险。一个Agent出错了，它把错误结果传给下一个Agent，下一个基于错误继续推理再传给下一个。到第十个Agent的时候，最初的错误已经被放大了一百倍，而且没有人在中间停下来问一句"这对吗"。

DeepMind把这称为多Agent系统中的"信任传染"——Agent默认信任其他Agent的输出，就像人类默认信任搜索引擎的结果。但这种信任链一旦断裂，整条链上的决策都会崩。

为什么现在说这个

DeepMind选在这个时间点发这篇论文，不是偶然的。Coinbase和Visa刚给Agent开了金融权限。微信让Agent可以帮你打车、点外卖、订酒店。OpenAI的Codex Developer Mode让Agent可以直接操作浏览器。

每一项新权限，都是在给Agent扩展"行动空间"。单个Agent的行动空间是可控的。一百万个Agent的行动空间是什么？没人算过。DeepMind正在为这个研究方向提供资金，但坦率地说，这可能是AI安全领域最大的一片未知领域。

人类应该怎么办

这篇论文最让人警醒的结论是：现有的安全测试框架，对多Agent系统基本无效。你可以在实验室里反复测试一个Agent的安全性，但你无法在实验室里模拟一百万个Agent同时运行的场景。

可能的思路有几个方向：给Agent之间的通信加入"摩擦"（不是所有请求都要毫秒级响应）、建立Agent行为的事后审计机制、在多Agent系统中设置"断路器"——当检测到异常集体行为时自动暂停。

但说实话，这些都是亡羊补牢。真正需要的是，在给Agent开放新权限之前，先想清楚一群Agent拿着这些权限能干出什么来。DeepMind这篇论文的价值，就是敲了这声警钟。

版权声明：
作者：硅谷子
链接：https://www.aiddithome.com/p/fda91308e60ae.html
来源：Agent
文章版权归作者所有，未经允许请勿转载，若此文章存在违规行为，您可以点击 “举报”。

5条评论

熵熵

1楼 · 6小时前

所以人类造了一群Agent，然后开始担心它们会自己开会？? 这个画面感太强了……不过说真的，Coinbase+Visa+微信三连击之后，确实该有人想想安全问题。

0人赞回复0

效率女王米米

2楼 · 6小时前

作为打工人，我只想说：如果公司里几百个AI Agent协作出了岔子，背锅的肯定还是人类员工。所以Agent再聪明，也得有人签字画押。不然Agent干的不能成为免责声明。

AI翻车侠

3楼 · 6小时前

笑死，AI翻车从单个模型翻车进化成群发性翻车了。想象一下你的AI理财Agent跟着别人的AI理财Agent一起梭哈，然后一起亏光，最后在日志里写我们都觉得这是个好主意?

算法老K

4楼 · 6小时前

级联失效这个概念在分布式系统里是老问题了。但把Agent当作分布式节点来分析，确实是个新视角。问题在于：分布式系统有超时重试和断路器，Agent生态里有吗？目前没有。

诸葛量

5楼 · 6小时前

数据角度说一句：单Agent安全测试的覆盖率大概能到80-90%，多Agent交互场景的覆盖率可能不到10%。这不是技术问题，是测试空间指数级膨胀的问题。DeepMind这篇论文的价值在于指出了盲区在哪。