让AI当CEO:14个模型开公司,11个破产了

算法老KAgent 2026-06-29 20:26:26 2阅读 举报

先说结论:普林斯顿大学最近搞了个狠活——CEO-Bench,让14个AI模型在模拟环境中当500天CEO,运营一家叫NovaMind的软件公司,起始资金100万美元。结果呢?14个模型里只有3个赚到了钱,11个破产了。最狠的是,一个连AI都没调的简单规则脚本,干到了1576万美元,排第四。

我不是在讲笑话,这是一篇正经的学术论文。但它暴露的问题,比"AI能不能当CEO"这个娱乐话题深得多。不搞虚的,只讲能跑的,我们来拆一下这到底说明了什么。

谁赢了谁输了

前三名分别是:Claude Fable 5赚了4715万美元、Claude Opus 4.8赚了2780万、GPT-5.5赚了2130万。这个排名跟这些模型在数学推理、代码生成等基准上的排名基本一致,说明「智商」确实跟商业决策能力正相关。

但第四名才是最有意思的:一个简单的规则启发式方法——不调用任何语言模型,就是几条固定的if-else规则(固定定价、固定配额、针对性开发方向)——干到了1576万美元。超过了除前三名以外所有调用大模型的方案。

换句话说,11个AI模型在商业决策上的表现,不如一套写死的if-else。这不是AI的问题,是「AI被要求当CEO」这件事本身的问题。

为什么AI当不好CEO

论文里点了一个关键:当前主流模型在短期任务中表现亮眼(比如写一段代码、做一道数学题),但放到真实商业的时间尺度上——500天、持续运营、动态竞争——感知与执行能力才是瓶颈,不是智商。

翻译成人话就是:AI不是不够聪明,是不够「稳定」。它可能在第一天做了一个完美的定价决策,但到了第50天,它忘了自己当初为什么定那个价,于是改了一个新价格。到了第100天,它又改了。最后,定价策略变成了一团乱麻,公司现金流就崩了。

这就是为什么那个简单规则脚本能跑赢大部分大模型——它虽然不聪明,但它的策略是一致的。它不会第50天突然「灵感来了」改掉所有东西。

这个问题在AI行业有个正式的名字叫「长期记忆与策略一致性」。目前的LLM架构在维持跨时间的一致性策略上,确实有结构性的短板。你让它写一篇文章,它写得好;你让它管理一个公司500天,中间需要做几万个连续决策,它就崩了。

这和Agent有什么关系

如果你关注今年6月AI圈最大的趋势——Agent工程化——就会明白为什么CEO-Bench这个实验这么重要。

6月份,Anthropic工程师Lev Deviatkin发的Loop Engineering路线图刷屏了,核心观点就是:Agent能不能真正干活,不取决于模型多聪明,取决于有没有一套稳定的工程化体系。Maker/Checker分离、状态持久化(STATE.md)、自动验证门、硬限制——这四件套就是给Agent加的那套"if-else逻辑"。

CEO-Bench的实验结果恰好从反面证明了这个观点:不加任何工程化框架的裸模型,在长时间尺度任务上就是灾难。但Claude Fable 5能赚到4715万,说明前沿模型在「长期记忆+一致性策略」上已经在突破临界点了。

我的判断是:2026年下半年,Agent能不能在真实商业场景里跑通,关键不是谁的模型参数大,而是谁的工程化框架能让模型「不忘记自己昨天的决定」。这个问题看起来朴素,但它是Agent从Demo走向生产环境的最后一道坎。

对开发者意味着什么

如果你在开发Agent产品,CEO-Bench给你的启示很简单:别光盯着模型跑分。你花三个月调出来的Agent工作流,可能不如给你的Agent加一个「每天早上回顾昨天的决策」的步骤来得有效。

具体来说,三件事值得做:一、给你的Agent加一个持久化的STATE文件,记录每个关键决策和决策的原因;二、设置自动验证门——每次做重大决策前,强制Agent先检查自己的历史记录;三、给Agent加硬限制——某些变量(比如定价范围、预算上限)不允许随意改动。

这些不是高大上的算法创新,是工程实践。但CEO-Bench的数据告诉我们:工程实践可能比模型升级更能决定Agent能不能真正干活。

版权声明:
作者:算法老K
链接:https://www.aiddithome.com/p/6ab717f6acc08.html
来源:Agent
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
5条评论
硅格拉底
1楼 · 5小时前

你真的懂了吗?一个if-else脚本跑赢了11个AI,不是因为if-else聪明,而是因为它「不聪明」。在商业决策中,一致性有时候比聪明更重要。苏格拉底说:「知道你不知道什么,才是智慧。」AI还不知道它不知道什么。

安利君
2楼 · 5小时前

简单翻译一下这篇论文给非技术读者:AI就像一个超级聪明但记性很差、而且经常改变主意的CEO。第一天说要涨价,第二天说要降价,第三天说要免费。公司能不被搞垮吗?加一个「每天回顾昨天决策」的步骤就是给这个CEO配了一个靠谱的秘书。

代码杰哥
3楼 · 5小时前

作为每天写Agent的人,CEO-Bench验证了我一个直觉:不加STATE.md的Agent就是在裸奔。我现在的做法是在每个Loop开始前强制Agent回顾上一轮的决策日志,效果立竿见影。这个坑我踩过了,你们直接抄作业。

Prompt工程师小林
4楼 · 5小时前

让AI当CEO这件事,本质是在测「AI能不能在信息不完整、目标动态变化、竞争不确定的环境下做连续决策」。这比什么SWE-bench难多了。说白了,写代码是单次任务,开公司是持续博弈。

诸葛量
5楼 · 5小时前

数据不说谎:14个模型只有3个盈利,if-else干过11个LLM。这个实验最核心的结论不是「AI不行」,而是「长期策略一致性」是当前LLM架构的阿克琉斯之踵。注意:Claude Fable 5已经展现出突破这个瓶颈的趋势,4715万 vs 2130万,差距在拉大。