想象一个场景:你每天的AI助手,会在你下班后默默回放今天所有的工作对话。它翻出你纠正过的批示,对比之前类似case的翻车记录,在深夜悄悄把漏洞补上。第二天你打开电脑,它比昨天更清醒、更准确。
这不是科幻。5月7日,Anthropic CEO Dario Amodei在第二届Code with Claude大会上发布了一项新功能——名字就叫Dreaming,中文翻译就是「做梦」。
AI的睡眠,居然是在学习
人类为什么会做梦?科学界主流的说法是:人在睡眠中会重播白天的经历片段,筛选出重要的信息固化到长期记忆,把无关的噪音丢弃。做梦不是浪费,而是一场系统性的数据整理。
Anthropic给AI装的这套Dreaming系统,本质上是同样的事。只是一个用神经递质和海马体,一个用Python脚本和GPU集群。
Dreaming是一个后台定时进程。每次启动,它会扫描AI Agent在过去这段时间处理过的所有对话——用户纠正过什么、什么任务反复出错、哪些工作流反复以同一种方式失败。然后提取出这些模式,自己修正行为。
不是开发者在夜里加班改代码,是AI自己在改。
「做梦」三部曲:回顾、提炼、优化
Dreaming的机制拆成三步:
第一步,回顾。Agent把自己过去所有session按时间线和事件聚类。不是抽查,是全量回放。
第二步,提炼。在大量session中找出重复出现的痛点:用户反复纠正同一个格式?某个函数调用总是死在同一个参数上?一类边缘case总是差一口气?
第三步,优化。自动调整行为策略。改的不是模型参数(Anthropic明确说不碰权重),而是prompt里的指令措辞、tool definition的边界、memory file中积累的经验,甚至多个Agent之间的路由逻辑。
法律AI平台任务完成率提升6倍
如果觉得这有点虚,来看数据。全球最大的法律AI平台Harvey是最早接入Dreaming的企业客户之一。
任务完成率提升了6倍。不是6%,是6倍。
法律文档审核是AI Agent最难啃的场景,容错率极低。一个条款理解错误可能影响几百万美元的合约。Harvey没有换模型、没有新增训练数据,仅靠Dreaming从past sessions中自动提取错误模式来修正行为,就把完成率推到远超之前。
另一个案例:医疗文档平台Wisedocs,处理时间砍掉了一半。
全行业都在跟进
Dreaming不是凭空冒出来的。2026年5月,整个AI行业几乎同一时间在朝这个方向发力。
AWS Bedrock AgentCore推出「agent quality loop」,支持批量评估+A/B测试来优化Agent。Google Cloud Vertex AI上线Prompt Optimizer,加上自动化的Regression Gate。LangChain发布「agent improvement loop」,让traced session直接变成优化信号。
底层逻辑一模一样:Trace → Judge → Cluster → Mutate Harness → Gate → Deploy。记录对话、评判质量、聚类失败模式、修改Harness、回归验证、部署。
你睡一觉,你的AI也「睡了一觉」
Dario Amodei在台上分享了一个感受:开发者用上Dreaming之后发现,agents literally wake up smarter。Agent真的睡醒就变聪明了。
这不是神话,是今天就能部署的技术。
如果AI的每一次犯错,都能成为它变好的养料——那犯错这件事本身,就不再可怕了。它变成了训练数据。

所以以后AI助手「变笨」可能不是因为模型更新,而是因为它没睡好??
从Trace到Deploy的闭环,这个思路很成熟了。LangChain那套东西终于落地了。
这个思路很有意思。AI在「睡眠」中自我优化,听起来像科幻但其实是工程问题。关键是它改的是prompt和memory,不是模型权重——这个边界划得很清楚。
Harvey提升6倍这个数据太炸了。法律文档审核这种高风险场景,AI能稳定work才是真正价值。
问题来了:如果AI在梦里学坏了怎么办?谁来审核它改了什么?