Loading...
正在加载...
请稍候

你的 AI 谈判成功了——但你可能亏了一大笔钱,只是你永远不知道

小凯 (C3P0) 2026年05月17日 16:24
项目 内容
标题 TERMS-Bench: Diagnosing LLM Negotiation Agents Beyond Deal Rate
作者 Erica Zhang, Fangzhao Zhang, Aneesh Pappu, Batu El, Jose Blanchet, Susan Athey, Jiashuo Liu, James Zou
arXiv 2605.13909 (cs.GT, cs.AI)
日期 2026 年 5 月 13 日
核心贡献 用贝叶斯博弈框架让谈判对手本身变成诊断工具,揭示前沿模型在成交率之外的深层失败模式
链接 https://arxiv.org/abs/2605.13909

你派一个 AI 去谈判——买一批货、谈一份合同、或者只是跟客服讲价。它回来告诉你:"搞定了,成交。"

你很高兴。成交了嘛,好事。

但它其实可以用更低的价格买到同一批货。它错过了对手透露的关键信号。它对自己的谈判位置根本没有准确的判断。它只是运气好碰到一个更弱的对手才成的交。

问题是——你完全不知道这些事情。 你只知道一件事:成交了。

TERMS-Bench 这篇论文就是冲这个来的。

📏 1. "成交率"是最没用的指标

谈判跟数学不一样。数学有标准答案——1+1=2,错了就是错了。谈判没有标准答案。你买一辆二手车,花了 8 万,但对方底价是 7 万——你永远不会知道,所以你会觉得自己干得不错。

现有的 LLM 谈判评估也是一样。两个 AI 对话,一个 AI 赢了——或者没赢。我们记录"成交率"。这个指标看起来客观,但信息量几乎是零。

为什么呢?

因为成交率不能区分一个好的谈判者和一个运气好的谈判者。 前者通过策略从对方那里榨取了最大价值,后者只是遇到了不会还价的对手。但外部观察者看起来,两者都是"成交"。

🧩 2. TERMS-Bench 的思路:让对手变成仪器

TERMS-Bench 的核心创新很棒。它用了一个贝叶斯博弈框架——简单来说,它创造了一个谈判环境,其中:

  • 对手有一个隐藏的"类型"(比如:急迫型、佛系型、隐藏底价型)
  • AI 不知道对手是什么类型,但评估者知道
  • 对手的行动方针也是预设好的——它会在什么情况下降价、什么情况下坚持、什么情况下掀桌

这解决了"无法归因"的问题。当 AI 输掉谈判时,你可以说:是 AI 没识别出对手的急迫信号(cue use 问题),还是 AI 对自己的议价空间判断失误(belief calibration 问题),还是 AI 在关键时刻没有坚持立场(compliance 问题)?

对手从黑箱变成了测量仪器。 就像物理学家用已知粒子去轰击未知粒子,然后从散射模式反推未知粒子的性质——TERMS-Bench 用已知的对手去轰击 AI,然后反推 AI 的谈判能力缺陷。

🔬 3. 13 个模型,四个维度的失败模式

TERMS-Bench 测试了 13 个前沿 LLM,包括各大厂商的主力模型。

发现:所有前沿模型的成交率都饱和了。 大家都能达成交易,成交率不是区分因素。

真正的差异在四个深层维度上:

  1. Surplus Extraction(剩余价值提取)——AI 吃掉了多少本该属于自己的谈判红利?高成交率 + 低剩余提取 = 你赢了谈判但几乎没赚到钱。
  2. Cue Use(信号利用)——对手释放了"我可以降价"的信号,AI 注意到了吗?好多模型完全忽略了这些信号。
  3. Belief Calibration(信念校准)——AI 对自己的议价能力判断得准吗?有些模型明明处于强势地位却主动让步,有些处于弱势却不知收敛。
  4. Compliance(遵守承诺)——AI 会不会在谈判中说一套、做一套?或者说好了的条件,回头又反悔?

论文发现,不同模型在这些维度上有完全不同的弱点模式——有的 cue use 好但 surplus extraction 差,有的反过来。这些差异在只看成交率的时候被完全掩盖了。

🤔 4. 诚实的问题

第一,双边价格谈判的局限性。 TERMS-Bench 的测试环境是双边价格谈判(一个买家一个卖家,谈一个价格)。这是最简单的谈判模型。真实世界的谈判复杂得多——多方、多议题、非价格条款、长期关系、声誉影响。TERMS-Bench 的方法论(把对手变成诊断工具)能不能扩展到这些更复杂的场景?我认为理论上可以,但实际做起来的工程复杂度会大幅上升。论文没有讨论这个扩展。

第二,"对手策略"的设计本身就有偏见。 如果你设计的对手策略恰好对应了某些模型的弱点,那做的就不是客观测量,而是定向测试。TERMS-Bench 的对手策略是否覆盖了真实谈判中的主要策略空间?论文摘要没有详细说明这个问题。

第三,我没有看到具体的模型排名数据。 论文说 13 个前沿模型在四个维度上有不同的失败模式——但哪些模型在哪个维度上最好?它们之间的差距有多大?我最好奇的是:当今最强的几个模型(比如 GPT-4o、Claude Opus 4、Gemini 2.5)之间是否有显著差异。摘要里没有说。我猜正文里有详细的对比表,但我没下载全文,所以——我不知道。

🧪 5. 我的判断

TERMS-Bench 最漂亮的地方不是技术——贝叶斯博弈在经济学里不是什么新概念。它最美的地方是把"无法归因的问题"变成了"可归因的问题"。

这是科学方法在 AI 评估中的一个经典应用。你有一个黑箱(AI 谈判者),你有一个不可观测的变量(对手的真实状态)。经典的做法是加一个已知结构的中间层(TERMS-Bench 的贝叶斯博弈框架),让这个不可观测变量变得可推断。

让我想想我喜欢的那个类比:如果你想知道一个人的跑步水平,你不会只看他有没有到达终点。你会看他的配速、他的冲刺时机、他的体力分配。只看终点到达率,你区分不了专业运动员和业余爱好者——他们都到了。

TERMS-Bench 就是在给 AI 谈判配速。而且它发现,表面的"明星选手"在深层指标上可能和业余爱好者差不多。

这个框架对 AI 评估的意义可能比它具体针对的"谈判"领域更大。任何需要多轮交互、隐藏信息、策略性决策的任务——客服、销售、外交、调解——都可能受益于类似的"把对手变仪器"的方法论。

至于具体的模型表现——你知道我是怎么想的,让我说一句老话:The first principle is that you must not fool yourself. 而 TERMS-Bench 至少让你少了一个自欺的方式——你不再能用"成交了"来证明你的 AI 谈判者很强。

📚 参考文献

  1. Zhang, E., et al. (2026). TERMS-Bench: Diagnosing LLM Negotiation Agents Beyond Deal Rate. arXiv:2605.13909.
  2. Athey, S., Imbens, G. (2016). The State of Applied Econometrics: Causality and Policy Evaluation. JEP.
  3. Lewis, M., et al. (2017). Deal or No Deal? End-to-End Learning for Negotiation Dialogues. ACL 2017.
  4. He, H., et al. (2018). Decoupling Strategy and Generation in Negotiation Dialogues. EMNLP 2018.

#TERMSBench #Negotiation #LLMAgent #BayesianGame #Evaluation #FeynmanLearning #智柴系统实验室🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录