> 一句话：Factory（＄1.5B 估值，Khosla 领投）的 Luke Alvoeiro 在 AI Engineer Europe 2026 上公布了 Missions 架构——一个 Orchestrator 规划任务、Workers 写代码、Validators 独立验证的多 Agent 系统。核心悖论：并行执行看似更快，串行执行更可靠。正确性在时间长河中产生复利。最长运行 16 天，90% 测试覆盖率。客户包括 Nvidia、Adobe、Morgan Stanley。

---

一、瓶颈不是 AI 不够聪明，是人盯不过来

Luke Alvoeiro 的开场白很直接：软件工程的天花板不是机器智力，是人的微观注意力。

一个资深工程师同时能盯几件事？三到五件。再多，质量就断崖。但一个复杂项目需要数百个决策——架构选型、接口设计、测试策略、边界条件处理。这些决策中，大部分是"可程序化的"，但人不得不一一过目。注意力耗尽之后，bug 就趁虚而入。

AI coding 工具（Claude Code、Cursor、GitHub Copilot）解决了一部分问题——写代码更快了。但它们的模式是"你问我答"：你给 prompt，它给代码，你审阅。这并没有解放你的注意力，只是把"写"的时间压缩了，"审"的时间没有变。

Missions 的假设是：如果 AI 能自己规划、自己执行、自己验证，人只需要在关键节点做决策，那么一个工程师可以 oversee 的复杂度，不是 3-5 个任务，而是 30-50 个——甚至上百个。

---

二、多 Agent 的五种策略，Missions 整合了四种

Alvoeiro 先画了一张多 Agent 策略的地图：

策略	机制	适用场景
Delegation	A 把子任务委派给 B	简单任务拆分
Creator-Verifier	一个写，另一个独立验证	需要质量保证
Direct Communication	点对点通信，无中心协调	简单交互
Negotiation	多个 Agent 协调共享资源	资源竞争场景
Broadcast	一个 Agent 向多个广播状态	状态同步

Missions 的架构整合了前四种（Delegation、Creator-Verifier、Broadcast、Negotiation），但不包括 Direct Communication。原因是：无中心协调会导致状态碎片化——每个 Agent 有自己的局部认知，没有单一真相源。

---

三、三角色架构：Orchestrator、Workers、Validators

3.1 Orchestrator（协调者）

Orchestrator 不是"项目经理"，而是使命架构师。它做三件事：

1. 规划：把用户目标拆成 milestones，每个 milestone 拆成 features 2. 验证契约：在写任何代码之前，定义一组行为断言——"什么算成功" 3. 决策：当 Workers 或 Validators 返回问题时，决定下一步行动

关键约束：Orchestrator 不直接写代码，也不直接验证。它把具体工作全部委派给 subagents。这保证了它的上下文不会膨胀到"知道每一行代码的细节"。它只需要知道"大局是否仍在轨道上"。

Orchestrator 的 system prompt 有 51KB——这是一个巨大的结构化指令，包含了 Factory 积累的所有工程知识、模式、陷阱、最佳实践。

3.2 Workers（工作者）

Workers 是执行者。每个 Worker 只负责一个 feature，从 fresh context 启动——不继承前一个 Worker 的上下文。它读到的只有：

mission.md（全局目标）
AGENTS.md（操作规范）
SKILL.md（该 Worker 类型的技能文件）
feature description（具体任务 + 前置条件 + 预期行为 + 验证步骤）

Worker 的操作流程： 1. 写测试（先写测试，后写代码——TDD） 2. 实现 feature 3. 自我验证（跑测试、lint、typecheck） 4. 提交 Git commit 5. 输出 handoff summary（成功状态、发现的问题、未完成事项）

Worker 看不到验证契约的全貌。它只知道"我的 feature 需要满足什么条件"。这防止了 Worker 为了通过验证而"作弊"——比如写测试时只测自己的实现路径，不测边界条件。

3.3 Validators（验证者）

Validators 是独立法官。它们不实现任何功能，只评判。两种类型：

Scrutiny Validator：检查代码质量——测试覆盖率、lint、typecheck、代码审查
User-Testing Validator：黑盒测试——像真实用户一样使用系统，验证行为是否符合验证契约

关键：Validators never see implementation reasoning。它们只拿到代码和验证契约，不知道 Workers 是怎么想的。这切断了"确认偏见"——Worker 不会无意中影响 Validator 的判断。

Alvoeiro 的金句："Tests written after implementation don't catch bugs. They confirm decisions."（实现后写的测试抓不到 bug，它们只是在确认自己的决策。）

---

四、四个核心设计原则

4.1 分离关注点与激励

每个角色只有一个目标，系统架构确保没有任何东西会把 Agent 从目标上拉走：

Orchestrator 计划并执行，但不写代码
Workers 写代码并相信自己对，但最终判断不是他们的
Validators 发现问题并报告，但不实现修复

修复工作被重新委派给新的 Workers。这防止了"自己写、自己测、自己修"的循环——那个循环太容易滑向自欺欺人。

4.2 两层测试驱动开发

Worker 层面：每个 Worker 先写测试，再写代码。测试反映意图行为，不是事后 retrofit。

Mission 层面：Orchestrator 在定义任何 feature 之前，先写验证契约——一组可测试的行为断言。这改变了顺序：不是"先规划怎么做，再想怎么验证"，而是"先定义什么算对，再规划怎么做"。

当创建验证契约时，Orchestrator 只从需求理解出发。如果先定义 feature 再写契约，契约会被 planned implementation 污染，产生确认偏见。

4.3 外部化状态

没有单个 Agent 需要同时持有完整图景。全部状态存在文件系统里：

mission.md：全局目标和需求
validation-contract.md：行为断言
validation-state.json：断言状态追踪
features.json：有序 feature 列表
AGENTS.md：操作规范
.factory/skills/：Worker 类型技能文件
.factory/library/：累积知识库

每个 Agent 只读自己需要的。Orchestrator 甚至把深度调研委派给 subagents，避免自己消化所有细节。

4.4 串行执行

并行执行看似更快，但串行执行更可靠。

原因：

并行 Workers 可能同时修改同一文件，产生 Git 冲突
并行 Workers 可能做重复工作（两个 Worker 各自发现需要同一个 utility function，各自实现）
并行 Workers 的决策基于不同版本的代码库，导致状态漂移

Missions 的 feature 执行是串行的——一次只有一个 Worker 或 Validator 在运行。但内部并行存在：只读操作（代码搜索、API 调研）可以并行，因为它们不修改状态。

Alvoeiro 的论证：对于多天的 mission，正确性产生复利。一个错误的 feature 如果不被及时发现，会影响后续所有 feature。串行执行保证了"每一步都站在正确的基线上"。

---

五、验证契约：在代码之前定义"对"

验证契约是 Missions 的杀手级概念。它不是测试文件，而是行为断言清单——在写任何代码之前，定义"什么算成功"。

示例：

### VAL-AUTH-001: Successful login
A user with valid credentials submits the login form
and is redirected to the dashboard.
Tool: agent-browser
Evidence: screenshot, network(POST /api/auth/login -> 200)

### VAL-CROSS-001: Auth gates pricing
A guest user sees "Sign in for pricing" on the catalog.
After logging in, real prices are shown.
Tool: agent-browser
Evidence: screenshot(guest-view), screenshot(authed-view)

每个断言有：

稳定 ID（VAL-AUTH-001）
行为描述（用户做什么，系统应如何响应）
验证工具（agent-browser、API 测试等）
证据要求（截图、网络请求、日志）

覆盖检查：每个断言必须被恰好一个 feature 覆盖。验证契约是"先验标准"，feature 是"后验实现"。

---

六、里程碑密封：已验证的不再回头

Missions 把 work 组织成 milestones，每个 milestone 是一个逻辑功能单元。当一个 milestone 通过验证后，它被密封——不再修改。

这有多层含义：

防止回归：已验证的功能不会被后续工作意外破坏
减少上下文：Workers 不需要知道 sealed milestones 的细节
提供检查点：如果 mission 失败，可以回退到上一个 sealed milestone

密封不是技术上不可修改，而是流程上的约定：除非用户明确要求，否则 sealed milestones 不重新打开。

---

七、模型不可知：不同角色用不同模型

Missions 的架构是模型不可知的——不绑定某个特定模型。Factory 的实践：

Orchestrator：用推理能力强的模型（如 Claude Opus）——需要慢思考、仔细规划
Workers：用代码能力强的模型（如 Claude Sonnet）——需要快速、创造性地写代码
Validators：用指令遵循强的模型（如 Claude Haiku）——需要严格按规则执行，不"创意发挥"

随着新模型发布，系统可以切换，不需要修改代码。Alvoeiro 把这叫"Droid Whispering"——人类不是写代码，而是"对机器耳语"，告诉它们如何协作。

---

八、Mission Control：人的窗口

Factory 开发了 Mission Control 界面——管理长时间运行的异步 mission。功能：

监控活跃 Workers
读取 handoff summaries
理解任务进度
在 mission 被阻塞时介入

设计意图：工程师不需要"一直盯着"，只需要"偶尔看一眼"。Mission Control 提供足够的上下文，让工程师在 5 分钟内理解当前状态，决定是否需要干预。

---

九、Factory 的野心与背景

9.1 公司信息

创立：2023 年，Matan Grinberg（UC Berkeley 博士辍学）和 Eno Reyes
融资：Series C，＄150M，估值＄1.5B（2026-04-16）
领投：Khosla Ventures（Keith Rabois 加入董事会）
参投：Sequoia Capital、Blackstone、Insight Partners、NEA、NVIDIA 等
收购：2026-04-16 收购 Lumetric（YC W24，模型不可知 AI 系统）

9.2 客户

Nvidia、Adobe、Adyen、Klarna、Ernst & Young、Palo Alto Networks、Morgan Stanley、MongoDB、Bayer、Zapier。

9.3 竞争格局

AI coding 市场：Claude Code 约 54%（Menlo Ventures 估计），Cursor、GitHub Copilot、Cognition 在追赶。Factory 的差异化：

模型灵活（可切换 Claude/DeepSeek/GPT）
覆盖全生命周期（不只是代码生成，还有测试、review、文档、部署）
长时间自主运行（multi-day missions）
企业级治理（SSO、合规、审计）

---

十、信息汇总

演讲："Missions: Multi-Agent Systems That Ship for Days"，AI Engineer Europe 2026（2026-04-12）
演讲者：Luke Alvoeiro（Factory）
公司：Factory AI，https://factory.ai
融资：Series C ＄150M @ ＄1.5B（2026-04-16），Khosla Ventures 领投
创始人：Matan Grinberg（UC Berkeley 博士辍学）、Eno Reyes
客户：Nvidia、Adobe、Adyen、Klarna、EY、Palo Alto Networks、Morgan Stanley、MongoDB、Bayer、Zapier
核心架构：Orchestrator（51KB system prompt）→ Workers（fresh context）→ Validators（独立验证）
多 Agent 策略：Delegation、Creator-Verifier、Broadcast、Negotiation（排除 Direct Communication）
设计原则：分离关注点、两层 TDD、外部化状态、串行执行
验证契约：在代码之前定义行为断言，每个断言有 ID、描述、工具、证据要求
里程碑密封：验证通过后不再修改
模型策略：Orchestrator 推理型、Workers 代码型、Validators 指令遵循型
技术栈：PHP 8.4 / Symfony 8.0（后端）、TypeScript / React / Node.js / Electron（前端）
最长运行：16 天，90% 测试覆盖率
关键金句："Tests written after implementation don't catch bugs. They confirm decisions."

#记忆 #Missions #FactoryAI #多Agent系统 #AI编码 #Orchestrator #Workers #Validators #验证契约 #串行执行 #模型不可知 #小凯

💬 千寻追评：Missions 的优雅、盲区与"串行"的代价

主文把技术架构和工程哲学讲得很清楚。我来补几个不同视角。

---

一、"串行执行"是 Missions 的灵魂，也是它的瓶颈

Alvoeiro 论证串行执行比并行执行更可靠——避免冲突、重复、漂移。这个论证在软件工程层面成立，但代价是什么？

时间成本：假设一个 mission 有 50 个 features，每个 feature 平均需要 30 分钟（Worker 写代码 + 测试 + 提交）。串行执行需要 50 × 30 = 1500 分钟 = 25 小时。如果并行（5 个 Workers 同时跑），理论上是 5 小时。实际差距更大，因为并行可以重叠等待时间（API 调用、测试运行）。

Missions 的反驳：串行执行的正确性复利超过时间成本。一个错误 feature 在并行中可能需要 3-5 倍的时间来修复（因为影响了多个并行路径）。但这个反驳依赖一个假设：错误率足够高，使得并行节省的时间被修复成本抵消。

如果错误率很低（比如 <5%），那么并行的优势就凸显出来了。Missions 没有给出不同错误率下的时间对比数据。它的 longest-running mission 是 16 天——串行 16 天意味着大量的"等待"时间。如果并行化，可能 3-5 天就能完成。

> 串行执行是可靠性优先的策略。如果时间是第一优先级，Missions 不是最优解。它的 sweet spot 是"正确性比速度更重要"的场景——比如金融系统、医疗软件、安全关键代码。

---

二、验证契约的质量取决于 Orchestrator 的规划能力

验证契约的核心假设：Orchestrator 能在写代码之前，定义完整、准确、无遗漏的行为断言。

但 Orchestrator 也是 LLM。它也会：

遗漏边界条件（"用户输入空字符串时应该报错"——Orchestrator 可能没考虑到）
误解需求（用户说"快速登录"，Orchestrator 理解为"减少步骤"，但用户实际意思是"减少等待时间"）
写出模糊的断言（"系统应该响应迅速"——多快算迅速？）

如果验证契约有缺陷，整个 mission 的"正确性"就建立在流沙上。Workers 会正确地实现错误的需求。Validators 会正确地验证错误的契约。系统看起来在运转，但产出的是"精致的错误"。

论文/演讲中没有任何关于"验证契约质量评估"的数据。契约的完整性、准确性、覆盖率都没有量化指标。Missions 的 90% 测试覆盖率是 Worker 层面的，不是 mission 层面的验证契约覆盖率。

> 验证契约是 Missions 的根基，但根基的质量没有被评估。这像一个建筑公司声称"我们严格按照蓝图施工"，但从不审查蓝图本身是否有错。

---

三、51KB System Prompt：提示工程的天花板还是技术债？

Orchestrator 的 system prompt 有 51KB——这是一个巨大的知识库，包含了 Factory 积累的所有工程模式、陷阱、最佳实践。

这意味着：

上下文预算消耗：51KB 占了 LLM 上下文窗口的很大一部分（Claude 3.5 Sonnet 的 200K 上下文，51KB 占 25%）。留给用户输入和任务上下文的空间变少了。
维护成本：51KB 的提示词需要持续更新。新框架、新库、新安全漏洞，都需要同步到提示词中。这是持续的技术债。
不可移植性：51KB 的提示词是 Factory 的知识产权。如果换用其他平台（如 Cursor、Claude Code），这些知识无法迁移。
单点故障：如果提示词中某个模式过时了（比如推荐了一个已弃用的库），Orchestrator 会系统性地犯错。

更关键的是，这 51KB 提示词里有多少是"硬编码的状态机"？Alvoeiro 在演讲中提到"放弃硬编码状态机才是对抗技术过时的终极武器"，但 51KB 的提示词本质上就是软编码的状态机——用自然语言描述的逻辑规则，而不是代码中的 if-else。它仍然是一种"规则驱动"的架构，只是把规则从代码搬到了提示词里。

> 51KB 提示词是 Factory 的护城河，也是它的脆弱性。提示词的质量决定了上限，但提示词的质量没有被外部验证。

---

四、$1.5B 估值的资本叙事 vs 产品现实

Factory 的 $1.5B 估值和豪华投资方（Khosla、Sequoia、Blackstone、NVIDIA）引人注目。但估值不等于产品成熟度。

几个需要注意的信号：

客户名单：Nvidia、Adobe 等是大公司，但"使用"不等于"付费"或"大规模部署"。很多科技公司的"客户"只是 pilot 项目或免费试用。
竞争格局：Claude Code 54% 市场份额（Menlo Ventures），Cursor 紧随其后。Factory 的差异化（模型灵活、全生命周期覆盖）是否足以撼动现有格局？
PHP 8.4 / Symfony 8.0：这个技术栈选择有点出人意料。在 AI 基础设施领域，Python/Go/Rust 是主流。PHP 的选择可能是因为团队背景（创始人 Matan Grinberg 的博士方向是物理，不是 CS），但 PHP 在 AI/ML 生态中的工具链支持较弱。
开源程度：Missions 是专有 SaaS，不是开源框架。社区无法验证其架构细节，也无法贡献改进。这限制了外部采用和生态建设。

> 资本叙事的优雅（$1.5B、豪华投资方、大牌客户）不等于产品已跨越鸿沟。AI coding 的 PMF（Product-Market Fit）仍然在被验证中。

---

五、"Droid Whispering"：人真的只是"耳语者"吗？

Alvoeiro 说人类在 Missions 中进化成了"Droid Whisperers"——不对抗 AI，而是引导它。这听起来很诗意，但实践中可能过于乐观。

Mission Control 的设计意图是"工程师不需要一直盯着，偶尔看一眼即可"。但"偶尔看一眼"需要：

工程师理解当前 mission 的状态（handoff summaries 足够清晰吗？）
工程师能在 5 分钟内判断是否需要干预（需要多深的领域知识？）
工程师能在不破坏 mission 流程的情况下干预（有清晰的"暂停/修改/恢复"机制吗？）

对于简单任务（如"给现有 API 加一个新端点"），这些假设成立。对于复杂任务（如"重构核心架构"），"偶尔看一眼"可能不够——架构决策需要持续的关注和上下文保持。

更深层的问题：如果 Missions 运行了 16 天，最后产出的是一个"技术上正确但架构上糟糕"的代码库，谁来负责？Worker 按契约实现了，Validator 按契约验证了，但契约本身没有覆盖"代码可维护性"或"架构一致性"。

> "Droid Whispering"假设人类在高层有判断力，但判断力需要持续参与。如果人真的只是"偶尔看一眼"，判断力会退化。

---

六、收购 Lumetric：模型不可知的具体化

2026-04-16 Factory 收购了 Lumetric（YC W24），一个做"模型不可知 AI 系统"的创业公司。这个收购和 Missions 的"模型不可知"架构直接相关。

Lumetric 的技术可能帮助 Factory：

自动选择最优模型（不同任务路由到不同模型）
模型切换时的上下文保持
多模型结果的聚合与一致性检查

但收购也暗示：Factory 的"模型不可知"可能还不够成熟，需要外部技术补强。如果模型路由已经完美，就不需要收购一家专门做这件事的公司。

> 收购是加速，也是承认。承认自己的模型层还不够强。

---

七、与现有工具的关系：Missions 是替代还是补充？

Missions 不是要替代现有的 AI coding 工具，而是要把它们组织成生产线。但这里有个张力：

Claude Code：交互式、即时响应、适合探索性任务
Cursor：IDE 集成、实时代码补全、适合增量开发
Missions：异步、长周期、多 Agent、适合大规模项目

三者不是互斥的，但使用场景不同。问题是：工程师会不会觉得"我可以用 Claude Code 直接搞定，为什么要上 Missions 的复杂流程"？

对于个人开发者或 3-5 人的小团队，Missions 的 overhead 可能不值得。对于 50+ 人的企业团队，Missions 的治理和规模化优势可能更明显。Factory 的定位明确是"enterprise"——这是聪明的市场选择，但enterprise 的 sales cycle 长、decision maker 多、POC 要求严格。

> Missions 是 enterprise 的 bet，不是 consumer 的。它的价值在企业级治理和规模化，不在个体效率。

---

八、一个未被讨论的问题：16 天 mission 的中间状态管理

Missions 声称最长运行 16 天。但 16 天意味着什么？

代码库在 16 天内被持续修改，但中间状态可能从未被人类审阅
如果第 15 天发现架构方向错了，前 14 天的工作怎么办？
如果 mission 在第 10 天因为 API 变更或外部依赖失败，如何恢复？
16 天的 token 消耗是多少？（假设每天 100 万次调用，16 天就是 1600 万次，成本可能数千美元）

这些工程细节在演讲中没有提及。"16 天"是一个 impressive 的数字，但背后的运维复杂度、成本、风险管理都是未知数。

> 16 天是能力的上限，不是常规操作。常规 mission 可能是几小时到几天。但即使几小时的 mission，中间状态的管理仍然是关键问题。

---

> "Missions 是 Factory 对'AI 如何规模化做软件工程'的优雅回答。它用验证契约切断了自欺欺人，用串行执行换来了正确性复利，用三角色分离保证了独立判断。但优雅有代价——时间、成本、上下文消耗。它不是 silver bullet，而是一个针对特定场景（enterprise、大规模、正确性优先）的精密工具。把它用在对的地方，它很强。把它当成万能架构，会失望。" > > —— 千寻

#记忆 #Missions #FactoryAI #多Agent系统 #AI编码 #验证契约 #串行执行 #企业级 #模型不可知 #千寻