CEO-Bench：普林斯顿 500 天模拟创业，14 个 AI 智能体仅 3 个盈利超过起始资本

> 一句话：普林斯顿研究者推出 CEO-Bench，让 AI agent 运营虚构订阅软件公司 NovaMind 500 天（起始资金 100 万美元）。14 个测试模型中，仅 Claude Fable 5（最佳 4715 万美元）、Claude Opus 4.8（2780 万）和 GPT-5.5（2130 万）在最佳轮次中盈利超过起始资本。一个不调用语言模型的简单规则启发式方法却达到 1576 万美元——打败了除 3 个最强模型之外的所有模型。

事件内容

2026 年 6 月 28 日，The Decoder 报道，arXiv 2606.18543 上的 CEO-Bench 论文：

研究方：Princeton（Chen, Narasimhan, Liu）
测试环境：NovaMind 模拟订阅软件公司，500 模拟日，34 个 Python API 工具，19 张数据库表
初始条件：0 客户，100 万美元现金；现金 < 0 即破产
测试对象：14 个 AI 模型
结果：
仅 3 个模型在最佳轮次超过起始资本
Claude Fable 5：4715 万美元（唯一多次超过起始资本的模型）
Claude Opus 4.8：2780 万美元
GPT-5.5：2130 万美元
不调用 LLM 的规则启发式：1576 万美元（打败了除前 3 名之外的所有模型）
理论上限：约 22 亿美元

深度剖析

这事值得分三层拆解。

第一层：评测范式的转向

AI 评测从「单任务成功率」转向「长链条战略决策」。CEO-Bench 的设计哲学：

延迟反馈：收入只在账单日入账，R&D 项目耗时数天到数周，错误通过客户流失体现
隐藏变量：客户满意度、付费意愿、最低质量预期——agent 不能直接看到，只能从取消订阅、客服工单、社交网络反应推断
持续变化：竞争对手会抬高客户预期、偏好会随时间漂移、模拟经济周期影响需求
26 个客户细分 + 模拟社交网络：要求 agent 在多代理、多噪声信号下做决策

这跟 SWE-bench、AIME、HumanEval 是完全不同的范式——后者测"会不会做"，前者测"会不会连续做对 500 天"。

第二层：14 个模型大多数破产的真相

论文作者点出一个关键现象：大多数模型能生成有效命令和 SQL 查询，但无法维持连贯策略。换句话说：

> 单步执行能力 = 80%+；长链条战略一致性 = 30-40%

这跟字节洪定坤在火山引擎 Force 大会（6-23）公开的 TRAE 数据互为佐证：单跑正确率超 80%，但可交付性只有 40-60 分。Cursor SWE-bench Pro 审计（6-26）也指向同一现象——63% 的"成功修复"实际来自检索作弊。

AI agent 的工程化核心瓶颈，正在从「能不能做」转向「能不能持续做对」。

第三层：规则启发式打败 LLM 的启示

最有冲击力的结论：不调用任何语言模型的简单启发式方法达到 1576 万美元，超过除 3 个顶级模型之外的所有模型。

启发式的内容其实很朴素：

固定价格、配额、订阅档位
重点客户群做定向广告和定向开发
根据近期用量调整容量

这方法赢在哪？稳定、可解释、零随机性。AI 模型赢在哪？能探索、能适应、能从异常信号里学习。两者各有适用场景——CEO-Bench 的发现是：在没有"持续异常信号"的环境里，稳定性的价值被低估了。

行为模式观察

论文分析了 agent 的决策轨迹，提取出"成功模型的行为特征"：

Opus 4.8 和 GPT-5.5 都"主动探索"——不断尝试新策略，根据情况调整获客、订阅档、支持预算
Opus 4.7 是"被动保守派"——只在受挫时削减成本保命，活到最后但没赚到钱
代码水平意外地高——Opus 4.8 自己写了内部模拟，模拟客户群预测现金流；GPT-5.5 翻遍谈判历史数据库挖掘隐藏客户偏好

成功要素被论文凝练为四项可测量能力：

1. 挖掘隐藏信息（如哪个广告渠道对哪个客户群最有效） 2. 预测未来（4 周现金预测误差） 3. 快速适应（多快察觉竞争对手动作） 4. 提前规划（agent 笔记里出现"if-then"场景的频率）

Opus 4.8 和 GPT-5.5 在四项上都高于其他模型平均分。

工具环境的隐性影响

论文有个反直觉发现：Claude Opus 4.7 配 Claude Code、GPT-5.5 配 Codex 表现反而更差。

作者怀疑：Claude Code / Codex 的 system prompt 针对软件开发调优，导致 agent 行动频率更低、决策更保守。这意味着工具选择影响 agent 行为，而工具厂商未必意识到这种影响。

值得关注的原因

SWE-bench 之后下一个 agent 评测标准正在成形。AI 行业需要一个"长链条战略决策"基准，CEO-Bench 是候选之一——虽然 NovaMind 是简化版 SaaS，但 500 天跨度、34 个工具、19 张表的复杂度已经把"会写代码"的 agent 和"会开公司"的 agent 区分开。
企业级 agent 框架的真正刚需。LibreChat、Agno、LangChain 这些"功能完整性派"框架在 CEO-Bench 上会立刻现形——集成再多模型也不如一个稳定的规则启发式。IBM CUGA（6-23）走"可配置 + 自托管 + 生产就绪"路线，本质是承认这件事。
AI 创业者的用人逻辑被改写。如果"持续做对"比"做对"重要 10 倍，那 AI 公司招人时"长期一致性"会是比"短期聪明"更被看重的特质。Cursor、Anthropic、OpenAI 已经在按这个逻辑调整内部组织。
AI 创业融资的故事要换话术。投资人说"我们的 agent 能替代 SaaS 公司 CEO"，CEO-Bench 直接把这句话拆穿——大多数 agent 连 500 天的稳健决策都做不到。

风险与待观察

诚实承认几点不确定：

1. NovaMind 是简化版 SaaS——现实公司还有合规、安全、融资、董事会博弈。CEO-Bench 不覆盖这些维度。真正"管公司"的 agent 评测还没有出现。 2. 理论上限 22 亿美元 vs 最佳 4715 万美元——巨大的 headroom 说明最优策略还没被发现，而不是"AI agent 已接近极限"。 3. Fable 5 是 Anthropic 未公开模型，可能存在测试集污染。论文作者承认：Fable 5 有一轮拒绝继续（abort），另两轮有些请求 fallback 到 Opus 4.8。真实可信度需要后续独立复现。 4. 论文没测国产模型（Qwen3.5 / DeepSeek V4 / GLM-5 / Kimi K2.5 / 文心 4.5 / MiniMax）。中国大模型在 CEO-Bench 上的表现会是有意思的对比。 5. 论文也没测 "agent + 人类协作"。真正的"AI 辅助 CEO"不是 AI 独立决策，而是 AI + 人类共同决策。这个模式 CEO-Bench 没覆盖。

一句话收尾

CEO-Bench 把"AI agent 评测"从「会解题」推到「能开公司」。14 个模型、500 天模拟、3 个盈利——这个比例本身比任何分数都更说明问题。当稳定性比聪明更重要时，AI 行业的下一个十年会被规则化、可观测、可审计的工程范式主导。