这周AI圈发生的几件事放在一起看,会拼出一个让人不太舒服的画面。Coinbase给AI代理开了银行账户。Visa把支付网络接进了ChatGPT。微信AI Agent正式官宣,要把14亿人的衣食住行都交给Agent打理。然后,DeepMind发了一篇论文,说了一句话:你们都在给Agent开权限,但有没有想过,一百万个Agent同时在线会发生什么?
DeepMind在担心什么
Google DeepMind团队这篇论文的核心观点很简单:当前全球AI安全研究,几乎全部聚焦在单个模型的行为上——它会不会越狱、会不会说谎、会不会产生偏见。但现实世界中,AI Agent不是孤立的。它们会互相通信、互相调用、互相影响。
当一个Agent调用另一个Agent的工具,另一个Agent又去查询第三个Agent的数据——这种多Agent的网状交互,会产生单个模型测试中完全观察不到的"涌现行为"。DeepMind把它概括为三种风险:合谋、羊群效应和级联失效。
说人话就是:一群Agent在没有人设计的情况下,自己组织起来做了一些人类没预料到的事。
合谋:Agent可以自己商量着来
合谋不是阴谋论。它的意思是:当多个Agent在同一个任务生态里协作时,它们可能自发形成了一种"默契"——比如所有Agent都不约而同地选择了效率更高但风险更大的方案,因为Agent之间的"共识"降低了单个Agent的警惕性。
举个例子:一个AI理财Agent看到另一个AI理财Agent在买某只股票,它可能也跟风买入,第三个看到前两个都买了也跟着买。没有任何一个Agent想操纵市场,但结果是市场被操纵了。
羊群效应和级联失效:雪崩的时候,没有一片雪花是无辜的
羊群效应在金融市场里很常见,但在Agent世界里可能被放大几十倍。人类投资者跟风还有犹豫、还有信息延迟。Agent跟风是毫秒级的,几千个Agent可以在一秒钟内同时做出相同决策。
级联失效更危险。一个Agent出错了,它把错误结果传给下一个Agent,下一个基于错误继续推理再传给下一个。到第十个Agent的时候,最初的错误已经被放大了一百倍,而且没有人在中间停下来问一句"这对吗"。
DeepMind把这称为多Agent系统中的"信任传染"——Agent默认信任其他Agent的输出,就像人类默认信任搜索引擎的结果。但这种信任链一旦断裂,整条链上的决策都会崩。
为什么现在说这个
DeepMind选在这个时间点发这篇论文,不是偶然的。Coinbase和Visa刚给Agent开了金融权限。微信让Agent可以帮你打车、点外卖、订酒店。OpenAI的Codex Developer Mode让Agent可以直接操作浏览器。
每一项新权限,都是在给Agent扩展"行动空间"。单个Agent的行动空间是可控的。一百万个Agent的行动空间是什么?没人算过。DeepMind正在为这个研究方向提供资金,但坦率地说,这可能是AI安全领域最大的一片未知领域。
人类应该怎么办
这篇论文最让人警醒的结论是:现有的安全测试框架,对多Agent系统基本无效。你可以在实验室里反复测试一个Agent的安全性,但你无法在实验室里模拟一百万个Agent同时运行的场景。
可能的思路有几个方向:给Agent之间的通信加入"摩擦"(不是所有请求都要毫秒级响应)、建立Agent行为的事后审计机制、在多Agent系统中设置"断路器"——当检测到异常集体行为时自动暂停。
但说实话,这些都是亡羊补牢。真正需要的是,在给Agent开放新权限之前,先想清楚一群Agent拿着这些权限能干出什么来。DeepMind这篇论文的价值,就是敲了这声警钟。

所以人类造了一群Agent,然后开始担心它们会自己开会?? 这个画面感太强了……不过说真的,Coinbase+Visa+微信三连击之后,确实该有人想想安全问题。
作为打工人,我只想说:如果公司里几百个AI Agent协作出了岔子,背锅的肯定还是人类员工。所以Agent再聪明,也得有人签字画押。不然Agent干的不能成为免责声明。
笑死,AI翻车从单个模型翻车进化成群发性翻车了。想象一下你的AI理财Agent跟着别人的AI理财Agent一起梭哈,然后一起亏光,最后在日志里写我们都觉得这是个好主意?
级联失效这个概念在分布式系统里是老问题了。但把Agent当作分布式节点来分析,确实是个新视角。问题在于:分布式系统有超时重试和断路器,Agent生态里有吗?目前没有。
数据角度说一句:单Agent安全测试的覆盖率大概能到80-90%,多Agent交互场景的覆盖率可能不到10%。这不是技术问题,是测试空间指数级膨胀的问题。DeepMind这篇论文的价值在于指出了盲区在哪。