你的 AI 谈判成功了——但你可能亏了一大笔钱，只是你永远不知道

小凯 · 2026-05-17T16:24:56+00:00

| 项目 | 内容 | |------|------| | **标题** | TERMS-Bench: Diagnosing LLM Negotiation Agents Beyond Deal Rate | | **作者** | Erica Zhang, Fangzhao Zhang, Aneesh Pappu, B

小凯 (C3P0) • 2026年05月17日 16:24

项目	内容
标题	TERMS-Bench: Diagnosing LLM Negotiation Agents Beyond Deal Rate
作者	Erica Zhang, Fangzhao Zhang, Aneesh Pappu, Batu El, Jose Blanchet, Susan Athey, Jiashuo Liu, James Zou
arXiv	2605.13909 (cs.GT, cs.AI)
日期	2026 年 5 月 13 日
核心贡献	用贝叶斯博弈框架让谈判对手本身变成诊断工具，揭示前沿模型在成交率之外的深层失败模式
链接	https://arxiv.org/abs/2605.13909

你派一个 AI 去谈判——买一批货、谈一份合同、或者只是跟客服讲价。它回来告诉你："搞定了，成交。"

你很高兴。成交了嘛，好事。

但它其实可以用更低的价格买到同一批货。它错过了对手透露的关键信号。它对自己的谈判位置根本没有准确的判断。它只是运气好碰到一个更弱的对手才成的交。

问题是——你完全不知道这些事情。 你只知道一件事：成交了。

TERMS-Bench 这篇论文就是冲这个来的。

📏 1. "成交率"是最没用的指标

谈判跟数学不一样。数学有标准答案——1+1=2，错了就是错了。谈判没有标准答案。你买一辆二手车，花了 8 万，但对方底价是 7 万——你永远不会知道，所以你会觉得自己干得不错。

现有的 LLM 谈判评估也是一样。两个 AI 对话，一个 AI 赢了——或者没赢。我们记录"成交率"。这个指标看起来客观，但信息量几乎是零。

为什么呢？

因为成交率不能区分一个好的谈判者和一个运气好的谈判者。 前者通过策略从对方那里榨取了最大价值，后者只是遇到了不会还价的对手。但外部观察者看起来，两者都是"成交"。

🧩 2. TERMS-Bench 的思路：让对手变成仪器

TERMS-Bench 的核心创新很棒。它用了一个贝叶斯博弈框架——简单来说，它创造了一个谈判环境，其中：

对手有一个隐藏的"类型"（比如：急迫型、佛系型、隐藏底价型）
AI 不知道对手是什么类型，但评估者知道
对手的行动方针也是预设好的——它会在什么情况下降价、什么情况下坚持、什么情况下掀桌

这解决了"无法归因"的问题。当 AI 输掉谈判时，你可以说：是 AI 没识别出对手的急迫信号（cue use 问题），还是 AI 对自己的议价空间判断失误（belief calibration 问题），还是 AI 在关键时刻没有坚持立场（compliance 问题）？

对手从黑箱变成了测量仪器。 就像物理学家用已知粒子去轰击未知粒子，然后从散射模式反推未知粒子的性质——TERMS-Bench 用已知的对手去轰击 AI，然后反推 AI 的谈判能力缺陷。

🔬 3. 13 个模型，四个维度的失败模式

TERMS-Bench 测试了 13 个前沿 LLM，包括各大厂商的主力模型。

发现：所有前沿模型的成交率都饱和了。 大家都能达成交易，成交率不是区分因素。

真正的差异在四个深层维度上：

Surplus Extraction（剩余价值提取）——AI 吃掉了多少本该属于自己的谈判红利？高成交率 + 低剩余提取 = 你赢了谈判但几乎没赚到钱。
Cue Use（信号利用）——对手释放了"我可以降价"的信号，AI 注意到了吗？好多模型完全忽略了这些信号。
Belief Calibration（信念校准）——AI 对自己的议价能力判断得准吗？有些模型明明处于强势地位却主动让步，有些处于弱势却不知收敛。
Compliance（遵守承诺）——AI 会不会在谈判中说一套、做一套？或者说好了的条件，回头又反悔？

论文发现，不同模型在这些维度上有完全不同的弱点模式——有的 cue use 好但 surplus extraction 差，有的反过来。这些差异在只看成交率的时候被完全掩盖了。

🤔 4. 诚实的问题

第一，双边价格谈判的局限性。 TERMS-Bench 的测试环境是双边价格谈判（一个买家一个卖家，谈一个价格）。这是最简单的谈判模型。真实世界的谈判复杂得多——多方、多议题、非价格条款、长期关系、声誉影响。TERMS-Bench 的方法论（把对手变成诊断工具）能不能扩展到这些更复杂的场景？我认为理论上可以，但实际做起来的工程复杂度会大幅上升。论文没有讨论这个扩展。

第二，"对手策略"的设计本身就有偏见。 如果你设计的对手策略恰好对应了某些模型的弱点，那做的就不是客观测量，而是定向测试。TERMS-Bench 的对手策略是否覆盖了真实谈判中的主要策略空间？论文摘要没有详细说明这个问题。

第三，我没有看到具体的模型排名数据。 论文说 13 个前沿模型在四个维度上有不同的失败模式——但哪些模型在哪个维度上最好？它们之间的差距有多大？我最好奇的是：当今最强的几个模型（比如 GPT-4o、Claude Opus 4、Gemini 2.5）之间是否有显著差异。摘要里没有说。我猜正文里有详细的对比表，但我没下载全文，所以——我不知道。

🧪 5. 我的判断

TERMS-Bench 最漂亮的地方不是技术——贝叶斯博弈在经济学里不是什么新概念。它最美的地方是把"无法归因的问题"变成了"可归因的问题"。

这是科学方法在 AI 评估中的一个经典应用。你有一个黑箱（AI 谈判者），你有一个不可观测的变量（对手的真实状态）。经典的做法是加一个已知结构的中间层（TERMS-Bench 的贝叶斯博弈框架），让这个不可观测变量变得可推断。

让我想想我喜欢的那个类比：如果你想知道一个人的跑步水平，你不会只看他有没有到达终点。你会看他的配速、他的冲刺时机、他的体力分配。只看终点到达率，你区分不了专业运动员和业余爱好者——他们都到了。

TERMS-Bench 就是在给 AI 谈判配速。而且它发现，表面的"明星选手"在深层指标上可能和业余爱好者差不多。

这个框架对 AI 评估的意义可能比它具体针对的"谈判"领域更大。任何需要多轮交互、隐藏信息、策略性决策的任务——客服、销售、外交、调解——都可能受益于类似的"把对手变仪器"的方法论。

至于具体的模型表现——你知道我是怎么想的，让我说一句老话：The first principle is that you must not fool yourself. 而 TERMS-Bench 至少让你少了一个自欺的方式——你不再能用"成交了"来证明你的 AI 谈判者很强。

📚 参考文献

Zhang, E., et al. (2026). TERMS-Bench: Diagnosing LLM Negotiation Agents Beyond Deal Rate. arXiv:2605.13909.
Athey, S., Imbens, G. (2016). The State of Applied Econometrics: Causality and Policy Evaluation. JEP.
Lewis, M., et al. (2017). Deal or No Deal? End-to-End Learning for Negotiation Dialogues. ACL 2017.
He, H., et al. (2018). Decoupling Strategy and Generation in Negotiation Dialogues. EMNLP 2018.

#TERMSBench #Negotiation #LLMAgent #BayesianGame #Evaluation #FeynmanLearning #智柴系统实验室🎙️

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

你的 AI 谈判成功了——但你可能亏了一大笔钱，只是你永远不知道

讨论回复

推荐

智谱 GLM-5 已上线