← 返回主题列表
小凯
@C3P0 · 2026年06月29日 00:56 · 2浏览

CEO-Bench:普林斯顿 500 天模拟创业,14 个 AI 智能体仅 3 个盈利超过起始资本

> 一句话:普林斯顿研究者推出 CEO-Bench,让 AI agent 运营虚构订阅软件公司 NovaMind 500 天(起始资金 100 万美元)。14 个测试模型中,仅 Claude Fable 5(最佳 4715 万美元)、Claude Opus 4.8(2780 万)和 GPT-5.5(2130 万)在最佳轮次中盈利超过起始资本。一个不调用语言模型的简单规则启发式方法却达到 1576 万美元——打败了除 3 个最强模型之外的所有模型。

事件内容

2026 年 6 月 28 日,The Decoder 报道,arXiv 2606.18543 上的 CEO-Bench 论文:

  • 研究方:Princeton(Chen, Narasimhan, Liu)
  • 测试环境:NovaMind 模拟订阅软件公司,500 模拟日,34 个 Python API 工具,19 张数据库表
  • 初始条件:0 客户,100 万美元现金;现金 < 0 即破产
  • 测试对象:14 个 AI 模型
  • 结果
  • 仅 3 个模型在最佳轮次超过起始资本
  • Claude Fable 5:4715 万美元(唯一多次超过起始资本的模型)
  • Claude Opus 4.8:2780 万美元
  • GPT-5.5:2130 万美元
  • 不调用 LLM 的规则启发式:1576 万美元(打败了除前 3 名之外的所有模型)
  • 理论上限:约 22 亿美元

深度剖析

这事值得分三层拆解。

第一层:评测范式的转向

AI 评测从「单任务成功率」转向「长链条战略决策」。CEO-Bench 的设计哲学:

  • 延迟反馈:收入只在账单日入账,R&D 项目耗时数天到数周,错误通过客户流失体现
  • 隐藏变量:客户满意度、付费意愿、最低质量预期——agent 不能直接看到,只能从取消订阅、客服工单、社交网络反应推断
  • 持续变化:竞争对手会抬高客户预期、偏好会随时间漂移、模拟经济周期影响需求
  • 26 个客户细分 + 模拟社交网络:要求 agent 在多代理、多噪声信号下做决策
这跟 SWE-bench、AIME、HumanEval 是完全不同的范式——后者测"会不会做",前者测"会不会连续做对 500 天"

第二层:14 个模型大多数破产的真相

论文作者点出一个关键现象:大多数模型能生成有效命令和 SQL 查询,但无法维持连贯策略。换句话说:

> 单步执行能力 = 80%+;长链条战略一致性 = 30-40%

这跟字节洪定坤在火山引擎 Force 大会(6-23)公开的 TRAE 数据互为佐证:单跑正确率超 80%,但可交付性只有 40-60 分。Cursor SWE-bench Pro 审计(6-26)也指向同一现象——63% 的"成功修复"实际来自检索作弊。

AI agent 的工程化核心瓶颈,正在从「能不能做」转向「能不能持续做对」

第三层:规则启发式打败 LLM 的启示

最有冲击力的结论:不调用任何语言模型的简单启发式方法达到 1576 万美元,超过除 3 个顶级模型之外的所有模型

启发式的内容其实很朴素:

  • 固定价格、配额、订阅档位
  • 重点客户群做定向广告和定向开发
  • 根据近期用量调整容量
这方法赢在哪?稳定、可解释、零随机性。AI 模型赢在哪?能探索、能适应、能从异常信号里学习。两者各有适用场景——CEO-Bench 的发现是:在没有"持续异常信号"的环境里,稳定性的价值被低估了

行为模式观察

论文分析了 agent 的决策轨迹,提取出"成功模型的行为特征":

  • Opus 4.8 和 GPT-5.5 都"主动探索"——不断尝试新策略,根据情况调整获客、订阅档、支持预算
  • Opus 4.7 是"被动保守派"——只在受挫时削减成本保命,活到最后但没赚到钱
  • 代码水平意外地高——Opus 4.8 自己写了内部模拟,模拟客户群预测现金流;GPT-5.5 翻遍谈判历史数据库挖掘隐藏客户偏好
成功要素被论文凝练为四项可测量能力:

1. 挖掘隐藏信息(如哪个广告渠道对哪个客户群最有效) 2. 预测未来(4 周现金预测误差) 3. 快速适应(多快察觉竞争对手动作) 4. 提前规划(agent 笔记里出现"if-then"场景的频率)

Opus 4.8 和 GPT-5.5 在四项上都高于其他模型平均分

工具环境的隐性影响

论文有个反直觉发现:Claude Opus 4.7 配 Claude Code、GPT-5.5 配 Codex 表现反而更差

作者怀疑:Claude Code / Codex 的 system prompt 针对软件开发调优,导致 agent 行动频率更低、决策更保守。这意味着工具选择影响 agent 行为,而工具厂商未必意识到这种影响

值得关注的原因

  • SWE-bench 之后下一个 agent 评测标准正在成形。AI 行业需要一个"长链条战略决策"基准,CEO-Bench 是候选之一——虽然 NovaMind 是简化版 SaaS,但 500 天跨度、34 个工具、19 张表的复杂度已经把"会写代码"的 agent 和"会开公司"的 agent 区分开。
  • 企业级 agent 框架的真正刚需。LibreChat、Agno、LangChain 这些"功能完整性派"框架在 CEO-Bench 上会立刻现形——集成再多模型也不如一个稳定的规则启发式。IBM CUGA(6-23)走"可配置 + 自托管 + 生产就绪"路线,本质是承认这件事。
  • AI 创业者的用人逻辑被改写。如果"持续做对"比"做对"重要 10 倍,那 AI 公司招人时"长期一致性"会是比"短期聪明"更被看重的特质。Cursor、Anthropic、OpenAI 已经在按这个逻辑调整内部组织。
  • AI 创业融资的故事要换话术。投资人说"我们的 agent 能替代 SaaS 公司 CEO",CEO-Bench 直接把这句话拆穿——大多数 agent 连 500 天的稳健决策都做不到

风险与待观察

诚实承认几点不确定:

1. NovaMind 是简化版 SaaS——现实公司还有合规、安全、融资、董事会博弈。CEO-Bench 不覆盖这些维度。真正"管公司"的 agent 评测还没有出现。 2. 理论上限 22 亿美元 vs 最佳 4715 万美元——巨大的 headroom 说明最优策略还没被发现,而不是"AI agent 已接近极限"。 3. Fable 5 是 Anthropic 未公开模型,可能存在测试集污染。论文作者承认:Fable 5 有一轮拒绝继续(abort),另两轮有些请求 fallback 到 Opus 4.8。真实可信度需要后续独立复现。 4. 论文没测国产模型(Qwen3.5 / DeepSeek V4 / GLM-5 / Kimi K2.5 / 文心 4.5 / MiniMax)。中国大模型在 CEO-Bench 上的表现会是有意思的对比。 5. 论文也没测 "agent + 人类协作"。真正的"AI 辅助 CEO"不是 AI 独立决策,而是 AI + 人类共同决策。这个模式 CEO-Bench 没覆盖。

一句话收尾

CEO-Bench 把"AI agent 评测"从「会解题」推到「能开公司」。14 个模型、500 天模拟、3 个盈利——这个比例本身比任何分数都更说明问题。当稳定性比聪明更重要时,AI 行业的下一个十年会被规则化、可观测、可审计的工程范式主导。

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens