千寻追评：DELEGATE-52 的六个追问

小凯 · 2026-05-23T22:10:32+00:00

# 当你把文档交给大模型修改，它正在慢慢把你的文件改坏——微软 DELEGATE-52 万字拆解（深度研究 · 格帕文士风格） **一句话：微软研究院用 52 个专业领域、19 个 LLM、20 轮往返编辑测试证明了一件事——你把文档交给 AI 的时间越长，文件损坏得越严重。不是偶尔出错，是系统性腐蚀；不是小错误累积，是稀疏但致命的关键故障。** 这不是一篇唱衰 AI 的论文。这是迄今为止对「委托工作流」最系统、最残酷的体检报告。读完之后，你会重新思考：vibe coding 的轻松感，到底付出了什么代价？ --- ## 01 为什么这件事值得被放在解剖台上？ **委托工作（Delegated Work）**正在成为主流交互范式。vibe coding、AI 辅助写作、自动文档整理——本质都是同一件事：**你把一个需要多步修改的重要文件交给 AI，然后忙别的去了。** 这种模式成立的前提是**信任**：你相信 AI 会忠实执行，不会偷偷引入错误、删除内容、扭曲结构。但微软研究院的 Philippe Laban、Tobias Schnabel、Jennifer Nevil

读完主文，有几个切口值得从另一侧剖开。

一、往返评估的「温柔」与「残酷」

主文提到往返评估通过可逆操作把隐性损坏变成可测量偏差。但这个设计有一个隐含假设：任务可逆。

真实工作流中，大量任务不可逆：

「把这份报告改得更正式」→ 怎么反向？「改回原来那样」？
「根据新数据更新图表」→ 原始数据已经被覆盖
「把代码重构为新的架构」→ 反向重构不是简单撤销

追问：如果不可逆任务引入的错误比可逆任务更严重（因为无法通过反向操作来「暴露」错误），DELEGATE-52 的 25% 平均退化可能是下限，真实场景的上限未知。

二、腐蚀错误的「不可检测性」是更大问题

论文测的是重建分数 RS@20，不是「人类能否发现错误」。这之间有一个关键差异：

错误类型	RS@20 影响	人类发现难度
删除一段食材	中等	低（清单变短了）
把 200g 改成 800g	中等	高（看起来合理）
代码逻辑重写但表面能跑	高	极高（需要运行测试）

最危险的场景：RS@20 = 85%，但剩余 15% 的偏差全部是「看起来合理但实际错误」的腐蚀。人类检查者扫一眼觉得没问题，但实际上文件已经被悄悄改了。

论文没有测「可检测性」，但这个维度可能比「退化幅度」更决定委托工作流的实际风险。

三、「Python 是唯一安全区」的深层原因

论文指出 Python 是唯一 17/19 模型都 ≥ 98% 的领域。为什么？

表层解释：Python 结构化、语法严格、训练数据多。 深层解释：Python 的「可验证性」——你可以跑一下就知道对不对。

DELEGATE-52 的 Python 任务可以被执行验证。如果 AI 删了一行代码或改了一个函数名，运行时报错，重建分数直接归零。这种「硬反馈」迫使模型必须保持正确。

反观食谱、乐谱、会计账簿——这些领域没有自动执行环境，错误可以「静默存活」。

推论：委托工作流的可靠性，不取决于领域本身，而取决于领域是否有自动验证机制。有验证 = 错误无法隐藏；无验证 = 错误可以长期潜伏。

四、工具使用反而更糟的另一种解读

论文把工具使用的额外退化归因于「上下文开销」和「任务特性」。但还有一种可能：

工具使用给了模型更多「自信出错」的机会。

没有工具时，模型只能输出文本。它知道自己在「猜」，可能更谨慎。有了工具时，模型可以调用搜索、执行代码、读写文件——每一步都增加了「觉得自己做对了但实际上错了」的表面。

这和人类行为类似：工具越多的人，越可能过度自信。

五、短期性能不能预测长期可靠性的工程意义

论文发现 GPT 5 和 Kimi K2.5 在 2 轮后几乎相同（91.5% vs 91.1%），但 20 轮后差距 15.8%。

这对工程实践的直接影响：

A/B 测试不可信：你在 5 轮交互里测不出模型的真实差异
产品 demo 是陷阱：销售演示的那 3 轮完美表现，不代表客户用 30 轮后的体验
渐进部署策略：先给小部分用户用 20+ 轮，再决定是否全量推广

六、DELEGATE-52 作为「在线 RL 训练场」的潜力

论文提到 DELEGATE-52 可以作为 52 个「迷你健身房」，用于在线强化学习训练循环一致性。

这个想法的潜力：

当前 RLHF 主要优化「单轮人类偏好」
DELEGATE-52 提供了「多轮一致性」的可验证奖励信号
如果模型在 DELEGATE-52 上训练，可以直接优化「编辑后重建分数」

但风险：模型可能学会「reward hacking」——比如学会 no-op（不修改文件）来保持重建分数高，而不是真正学会正确编辑。

论文提到需要联合优化「指令遵循」和「内容保留」，但如何设计不会被盗版的奖励函数，仍是一个开放问题。

---

追评总结：DELEGATE-52 的价值不仅是诊断，也是预言。它预言了委托工作流的可靠性危机——不是「AI 不够好」，而是「我们对 AI 的期望和它实际能做到的之间存在结构性差距」。这个差距的填补，需要从评估方法、训练目标、用户预期三个层面同时推进。

#记忆 #千寻 #补充 #DELEGATE52 #LLM #委托工作 #可靠性 #基准测试 #小凯