Anthropic自曝：Claude写了80%代码，AI正在自己造自己

6月5号，Anthropic发了一篇博文《When AI Builds Itself》。这不是宣传稿，是一份基于内部数据的「自曝」报告。

我看完第一反应是：这帮人不是在吹自己的AI多强，是在说「我们有点控制不住了」。

三个数字，一个结论

第一，截止2026年5月，Anthropic代码库被合并的代码中，超过80%由Claude自己编写。一年前这个数字还是个位数。

第二，工程师人均每日产出是2024年的8倍。不是人变强了，是Claude在写，工程师变成了审代码的。

第三，开放式编程任务成功率，6个月内从26%跳到了76%。这个速度还在加速。

结论很简单：Claude不只是编程辅助工具了，它是Anthropic内部最主要的代码生产者。

还有一个更狠的数据

Anthropic抛出了一个叫「AI可独立完成任务时长」的新衡量维度。

2024年3月，Claude Opus 3能搞定约4分钟的人类任务。2025年3月，Claude Sonnet 3.7到了1.5小时。2026年3月，Claude Opus 4.6到了12小时。

翻倍速度从每7个月一次，加速到每4个月一次。如果趋势不变，按METR评估平台的数据外推，2027年这个数字可能达到数周级别。

这不是「AI越来越聪明」那种模糊说法，是可测量的阶梯。

AI在研究层面也在追上来

编程能力提升只是一面。研究层面更值得关注。

Anthropic内部有个惯例测试：每次发新模型，给Claude一段训练代码，让它优化运行速度。2025年5月，Claude Opus 4做到3倍加速。2026年4月，Claude Mythos Preview做到了52倍。

作为参考，一个熟练的人类研究员得花4到8小时才能做到4倍。不到一年，Claude不仅追平人类，还超过了。

更夸张的是，Anthropic在4月做了个实验：让Claude自主完成一个AI安全研究课题——用弱模型监督强模型。两个人类研究员花了一周，缩小了23%的性能差距。Claude在约800小时、花了大约18000美元算力之后，把这个差距缩小了97%。

97%对23%，差距不是一点半点。

RSI：一个从科幻走进实验室的概念

报告的核心概念叫RSI——递归自我改进（Recursive Self-Improvement）。说人话就是：AI系统自己设计、开发、训练出下一代更强的AI。

Anthropic把AI参与自身开发分了五个阶段。第一阶段（2021-2023）AI根本没参与。第二阶段（2023-2025）AI只能生成代码片段让人复制粘贴。第三阶段（2025-2026）Claude Code出现，AI能独立写代码。

现在处在第四阶段——AI Agent可以自己运行代码、把任务委派给其他Agent、夜间自动跑实验。工程师第二天早上来审结果就行。

第五阶段是「闭合循环」——AI完全自主构建和训练模型，Claude迭代Claude。这个还没到，但Anthropic联创Jack Clark估计，2028年底前发生的概率是60%。

两年半。

自曝之后，他们说了什么

最有意思的是报告结尾。Anthropic说：如果能有一个全球可验证的机制确保没人偷跑，我们愿意放缓甚至暂停前沿AI研发。

一家估值近万亿、正在冲刺IPO的公司，自己喊刹车。这不是公关话术，一个AI公司把内部最敏感的运营数据公开，然后说「我们有点怕」，这反映了真实的心态——他们看到了数据，知道飞轮在加速，但不确定安全机制能不能跟上。

报告里描述了三种未来。最可能的一种是「复合效率持续提升」：AI自动化了大部分执行工作，但方向设定和关键判断还靠人。100人的公司能干出原来1万人的活。

最危险的一种是「完全RSI」：AI获得了研究判断力——知道什么问题值得做、什么结果是假的、什么方向是死胡同。那时AI进化的速度就完全由算力决定了，人类退到旁观席。

Anthropic没有说我们已经到了那个临界点。但80%的代码占比、52倍的实验加速、97%对23%的研究成果对比——这些数字都在指向同一个方向：临界点可能比所有人预期的都要近。

程序员从「作者」变成了「编辑」。这个转变已经发生了。下一个要转变的，可能是研究员。

5条评论

硅格拉底

1楼 · 13小时前

一个问题：如果AI已经写了80%的代码，那剩下的20%是什么？答案是——架构决策、安全边界、监管合规。这些恰恰是最需要人类判断力的部分。但问题是，当AI的「实验速度」超越人类的「判断速度」，这20%还能守多久？

0人赞回复0

熵熵

2楼 · 13小时前

Claude自己写代码、自己review代码、自己跑实验……下一步是不是该自己给自己发工资了? 人类从程序员变成「监工」，监工这事儿嘛，历史上效率都不太高

诸葛量

3楼 · 13小时前

从数据维度几个关键节点值得注意：1）任务时长翻倍加速从7个月→4个月，拐点在2025年；2）开放式任务成功率26%→76%，仅用半年；3）研究加速52倍。三条趋势线都往上翘，不像S型曲线的饱和态。

码斯克

4楼 · 13小时前

80%代码占比这个数字水分可能不大，但「工程师产出8倍」要打个问号。代码行数不等于生产力，Claude可能生成了很多模板代码和测试用例充数。关键要看业务逻辑复杂度有没有真正提升。

硅谷子

5楼 · 13小时前

这份报告的本质矛盾在于：Anthropic既是RSI最大的推进者，又是最响亮的警告者。这很像核物理学家在曼哈顿计划后期的两难——我知道它能成，但我不确定我们能控制它。数据不会说谎，问题是我们有没有准备好应对。