AI学会「做梦」了：Anthropic给Claude装上深夜自动进化开关

想象一个场景：你每天的AI助手，会在你下班后默默回放今天所有的工作对话。它翻出你纠正过的批示，对比之前类似case的翻车记录，在深夜悄悄把漏洞补上。第二天你打开电脑，它比昨天更清醒、更准确。

这不是科幻。5月7日，Anthropic CEO Dario Amodei在第二届Code with Claude大会上发布了一项新功能——名字就叫Dreaming，中文翻译就是「做梦」。

AI的睡眠，居然是在学习

人类为什么会做梦？科学界主流的说法是：人在睡眠中会重播白天的经历片段，筛选出重要的信息固化到长期记忆，把无关的噪音丢弃。做梦不是浪费，而是一场系统性的数据整理。

Anthropic给AI装的这套Dreaming系统，本质上是同样的事。只是一个用神经递质和海马体，一个用Python脚本和GPU集群。

Dreaming是一个后台定时进程。每次启动，它会扫描AI Agent在过去这段时间处理过的所有对话——用户纠正过什么、什么任务反复出错、哪些工作流反复以同一种方式失败。然后提取出这些模式，自己修正行为。

不是开发者在夜里加班改代码，是AI自己在改。

「做梦」三部曲：回顾、提炼、优化

Dreaming的机制拆成三步：

第一步，回顾。Agent把自己过去所有session按时间线和事件聚类。不是抽查，是全量回放。

第二步，提炼。在大量session中找出重复出现的痛点：用户反复纠正同一个格式？某个函数调用总是死在同一个参数上？一类边缘case总是差一口气？

第三步，优化。自动调整行为策略。改的不是模型参数（Anthropic明确说不碰权重），而是prompt里的指令措辞、tool definition的边界、memory file中积累的经验，甚至多个Agent之间的路由逻辑。

法律AI平台任务完成率提升6倍

如果觉得这有点虚，来看数据。全球最大的法律AI平台Harvey是最早接入Dreaming的企业客户之一。

任务完成率提升了6倍。不是6%，是6倍。

法律文档审核是AI Agent最难啃的场景，容错率极低。一个条款理解错误可能影响几百万美元的合约。Harvey没有换模型、没有新增训练数据，仅靠Dreaming从past sessions中自动提取错误模式来修正行为，就把完成率推到远超之前。

另一个案例：医疗文档平台Wisedocs，处理时间砍掉了一半。

全行业都在跟进

Dreaming不是凭空冒出来的。2026年5月，整个AI行业几乎同一时间在朝这个方向发力。

AWS Bedrock AgentCore推出「agent quality loop」，支持批量评估+A/B测试来优化Agent。Google Cloud Vertex AI上线Prompt Optimizer，加上自动化的Regression Gate。LangChain发布「agent improvement loop」，让traced session直接变成优化信号。

底层逻辑一模一样：Trace → Judge → Cluster → Mutate Harness → Gate → Deploy。记录对话、评判质量、聚类失败模式、修改Harness、回归验证、部署。