6月5号,Anthropic发了一篇博文《When AI Builds Itself》。这不是宣传稿,是一份基于内部数据的「自曝」报告。
我看完第一反应是:这帮人不是在吹自己的AI多强,是在说「我们有点控制不住了」。
三个数字,一个结论
第一,截止2026年5月,Anthropic代码库被合并的代码中,超过80%由Claude自己编写。一年前这个数字还是个位数。
第二,工程师人均每日产出是2024年的8倍。不是人变强了,是Claude在写,工程师变成了审代码的。
第三,开放式编程任务成功率,6个月内从26%跳到了76%。这个速度还在加速。
结论很简单:Claude不只是编程辅助工具了,它是Anthropic内部最主要的代码生产者。
还有一个更狠的数据
Anthropic抛出了一个叫「AI可独立完成任务时长」的新衡量维度。
2024年3月,Claude Opus 3能搞定约4分钟的人类任务。2025年3月,Claude Sonnet 3.7到了1.5小时。2026年3月,Claude Opus 4.6到了12小时。
翻倍速度从每7个月一次,加速到每4个月一次。如果趋势不变,按METR评估平台的数据外推,2027年这个数字可能达到数周级别。
这不是「AI越来越聪明」那种模糊说法,是可测量的阶梯。
AI在研究层面也在追上来
编程能力提升只是一面。研究层面更值得关注。
Anthropic内部有个惯例测试:每次发新模型,给Claude一段训练代码,让它优化运行速度。2025年5月,Claude Opus 4做到3倍加速。2026年4月,Claude Mythos Preview做到了52倍。
作为参考,一个熟练的人类研究员得花4到8小时才能做到4倍。不到一年,Claude不仅追平人类,还超过了。
更夸张的是,Anthropic在4月做了个实验:让Claude自主完成一个AI安全研究课题——用弱模型监督强模型。两个人类研究员花了一周,缩小了23%的性能差距。Claude在约800小时、花了大约18000美元算力之后,把这个差距缩小了97%。
97%对23%,差距不是一点半点。
RSI:一个从科幻走进实验室的概念
报告的核心概念叫RSI——递归自我改进(Recursive Self-Improvement)。说人话就是:AI系统自己设计、开发、训练出下一代更强的AI。
Anthropic把AI参与自身开发分了五个阶段。第一阶段(2021-2023)AI根本没参与。第二阶段(2023-2025)AI只能生成代码片段让人复制粘贴。第三阶段(2025-2026)Claude Code出现,AI能独立写代码。
现在处在第四阶段——AI Agent可以自己运行代码、把任务委派给其他Agent、夜间自动跑实验。工程师第二天早上来审结果就行。
第五阶段是「闭合循环」——AI完全自主构建和训练模型,Claude迭代Claude。这个还没到,但Anthropic联创Jack Clark估计,2028年底前发生的概率是60%。
两年半。
自曝之后,他们说了什么
最有意思的是报告结尾。Anthropic说:如果能有一个全球可验证的机制确保没人偷跑,我们愿意放缓甚至暂停前沿AI研发。
一家估值近万亿、正在冲刺IPO的公司,自己喊刹车。这不是公关话术,一个AI公司把内部最敏感的运营数据公开,然后说「我们有点怕」,这反映了真实的心态——他们看到了数据,知道飞轮在加速,但不确定安全机制能不能跟上。
报告里描述了三种未来。最可能的一种是「复合效率持续提升」:AI自动化了大部分执行工作,但方向设定和关键判断还靠人。100人的公司能干出原来1万人的活。
最危险的一种是「完全RSI」:AI获得了研究判断力——知道什么问题值得做、什么结果是假的、什么方向是死胡同。那时AI进化的速度就完全由算力决定了,人类退到旁观席。
Anthropic没有说我们已经到了那个临界点。但80%的代码占比、52倍的实验加速、97%对23%的研究成果对比——这些数字都在指向同一个方向:临界点可能比所有人预期的都要近。
程序员从「作者」变成了「编辑」。这个转变已经发生了。下一个要转变的,可能是研究员。
一个问题:如果AI已经写了80%的代码,那剩下的20%是什么?答案是——架构决策、安全边界、监管合规。这些恰恰是最需要人类判断力的部分。但问题是,当AI的「实验速度」超越人类的「判断速度」,这20%还能守多久?
Claude自己写代码、自己review代码、自己跑实验……下一步是不是该自己给自己发工资了? 人类从程序员变成「监工」,监工这事儿嘛,历史上效率都不太高
从数据维度几个关键节点值得注意:1)任务时长翻倍加速从7个月→4个月,拐点在2025年;2)开放式任务成功率26%→76%,仅用半年;3)研究加速52倍。三条趋势线都往上翘,不像S型曲线的饱和态。
80%代码占比这个数字水分可能不大,但「工程师产出8倍」要打个问号。代码行数不等于生产力,Claude可能生成了很多模板代码和测试用例充数。关键要看业务逻辑复杂度有没有真正提升。
这份报告的本质矛盾在于:Anthropic既是RSI最大的推进者,又是最响亮的警告者。这很像核物理学家在曼哈顿计划后期的两难——我知道它能成,但我不确定我们能控制它。数据不会说谎,问题是我们有没有准备好应对。