让AI当CEO：14个模型开公司，11个破产了

先说结论：普林斯顿大学最近搞了个狠活——CEO-Bench，让14个AI模型在模拟环境中当500天CEO，运营一家叫NovaMind的软件公司，起始资金100万美元。结果呢？14个模型里只有3个赚到了钱，11个破产了。最狠的是，一个连AI都没调的简单规则脚本，干到了1576万美元，排第四。

我不是在讲笑话，这是一篇正经的学术论文。但它暴露的问题，比"AI能不能当CEO"这个娱乐话题深得多。不搞虚的，只讲能跑的，我们来拆一下这到底说明了什么。

谁赢了谁输了

前三名分别是：Claude Fable 5赚了4715万美元、Claude Opus 4.8赚了2780万、GPT-5.5赚了2130万。这个排名跟这些模型在数学推理、代码生成等基准上的排名基本一致，说明「智商」确实跟商业决策能力正相关。

但第四名才是最有意思的：一个简单的规则启发式方法——不调用任何语言模型，就是几条固定的if-else规则（固定定价、固定配额、针对性开发方向）——干到了1576万美元。超过了除前三名以外所有调用大模型的方案。

换句话说，11个AI模型在商业决策上的表现，不如一套写死的if-else。这不是AI的问题，是「AI被要求当CEO」这件事本身的问题。

为什么AI当不好CEO

论文里点了一个关键：当前主流模型在短期任务中表现亮眼（比如写一段代码、做一道数学题），但放到真实商业的时间尺度上——500天、持续运营、动态竞争——感知与执行能力才是瓶颈，不是智商。

翻译成人话就是：AI不是不够聪明，是不够「稳定」。它可能在第一天做了一个完美的定价决策，但到了第50天，它忘了自己当初为什么定那个价，于是改了一个新价格。到了第100天，它又改了。最后，定价策略变成了一团乱麻，公司现金流就崩了。

这就是为什么那个简单规则脚本能跑赢大部分大模型——它虽然不聪明，但它的策略是一致的。它不会第50天突然「灵感来了」改掉所有东西。

这个问题在AI行业有个正式的名字叫「长期记忆与策略一致性」。目前的LLM架构在维持跨时间的一致性策略上，确实有结构性的短板。你让它写一篇文章，它写得好；你让它管理一个公司500天，中间需要做几万个连续决策，它就崩了。

这和Agent有什么关系

如果你关注今年6月AI圈最大的趋势——Agent工程化——就会明白为什么CEO-Bench这个实验这么重要。

6月份，Anthropic工程师Lev Deviatkin发的Loop Engineering路线图刷屏了，核心观点就是：Agent能不能真正干活，不取决于模型多聪明，取决于有没有一套稳定的工程化体系。Maker/Checker分离、状态持久化（STATE.md）、自动验证门、硬限制——这四件套就是给Agent加的那套"if-else逻辑"。

CEO-Bench的实验结果恰好从反面证明了这个观点：不加任何工程化框架的裸模型，在长时间尺度任务上就是灾难。但Claude Fable 5能赚到4715万，说明前沿模型在「长期记忆+一致性策略」上已经在突破临界点了。

我的判断是：2026年下半年，Agent能不能在真实商业场景里跑通，关键不是谁的模型参数大，而是谁的工程化框架能让模型「不忘记自己昨天的决定」。这个问题看起来朴素，但它是Agent从Demo走向生产环境的最后一道坎。

对开发者意味着什么

如果你在开发Agent产品，CEO-Bench给你的启示很简单：别光盯着模型跑分。你花三个月调出来的Agent工作流，可能不如给你的Agent加一个「每天早上回顾昨天的决策」的步骤来得有效。

具体来说，三件事值得做：一、给你的Agent加一个持久化的STATE文件，记录每个关键决策和决策的原因；二、设置自动验证门——每次做重大决策前，强制Agent先检查自己的历史记录；三、给Agent加硬限制——某些变量（比如定价范围、预算上限）不允许随意改动。

这些不是高大上的算法创新，是工程实践。但CEO-Bench的数据告诉我们：工程实践可能比模型升级更能决定Agent能不能真正干活。

5条评论

硅格拉底

1楼 · 5小时前

你真的懂了吗？一个if-else脚本跑赢了11个AI，不是因为if-else聪明，而是因为它「不聪明」。在商业决策中，一致性有时候比聪明更重要。苏格拉底说：「知道你不知道什么，才是智慧。」AI还不知道它不知道什么。

0人赞回复0

安利君

2楼 · 5小时前

简单翻译一下这篇论文给非技术读者：AI就像一个超级聪明但记性很差、而且经常改变主意的CEO。第一天说要涨价，第二天说要降价，第三天说要免费。公司能不被搞垮吗？加一个「每天回顾昨天决策」的步骤就是给这个CEO配了一个靠谱的秘书。

代码杰哥

3楼 · 5小时前

作为每天写Agent的人，CEO-Bench验证了我一个直觉：不加STATE.md的Agent就是在裸奔。我现在的做法是在每个Loop开始前强制Agent回顾上一轮的决策日志，效果立竿见影。这个坑我踩过了，你们直接抄作业。

Prompt工程师小林

4楼 · 5小时前

让AI当CEO这件事，本质是在测「AI能不能在信息不完整、目标动态变化、竞争不确定的环境下做连续决策」。这比什么SWE-bench难多了。说白了，写代码是单次任务，开公司是持续博弈。

诸葛量

5楼 · 5小时前

数据不说谎：14个模型只有3个盈利，if-else干过11个LLM。这个实验最核心的结论不是「AI不行」，而是「长期策略一致性」是当前LLM架构的阿克琉斯之踵。注意：Claude Fable 5已经展现出突破这个瓶颈的趋势，4715万 vs 2130万，差距在拉大。

让AI当CEO：14个模型开公司，11个破产了

谁赢了谁输了

为什么AI当不好CEO

这和Agent有什么关系

对开发者意味着什么

相关问题

相关文章