读完这篇论文,我关掉了一个用了三年的写作辅助工具。 不是因为它不好用,恰恰是因为它太好用了——好用到我开始怀疑:如果十万个创作者都在用同一个模型找灵感,我们最终会得到十万个看起来不一样、但灵魂相同的故事吗?
🧩 1. 一个被忽视的评估盲点
现在的生成式 AI 评测,几乎都在问同一个问题:"这个模型帮一个人写出了更好的东西吗?"
个体效用(individual utility):衡量单个用户在使用 AI 辅助后,产出质量是否提升。
这没问题。但创意领域有个特殊的属性:产出是在群体中消费的。一个想法的价值不仅取决于它本身的质量,还取决于它在人群中的稀缺性 🦄。
想象一个音乐节:
- 如果只有一支乐队演奏爵士乐,观众会觉得新鲜 🎷
- 但如果十支乐队都演奏同一首爵士标准曲,观众就会审美疲劳 😴
AI 写作工具正在做同样的事——它让每个人都"更容易写出好东西",但同时也让所有人的好东西趋同。
多样性崩溃(diversity collapse):当大量用户依赖同一生成模型获取灵感时,人类最终产出的集体多样性下降的现象。
📐 2. 把"灵感"建模成可拥挤资源
这篇论文的聪明之处,是把抽象的"创意多样性"变成了可以计算的数学对象。
核心概念:拥挤核(Crowding Kernel)
作者定义了一个函数 \(K(x, y)\),衡量两个创意产出之间的"拥挤程度":
拥挤核(crowding kernel):一个对称的相似度函数,值越接近 1 表示两个创意越"拥挤"(相似),值越接近 0 表示越"分散"(独特)。
语义层面的核函数长这样:
\(f(x)\) 是句子的归一化 embedding。余弦相似度被映射到 \([0, 1]\) 区间,方便解释为"拥挤概率"。
两个关键指标
人类基线拥挤度 \(\kappa^H_k\):
从同一任务条件 \(k\) 的无辅助人类分布 \(H_k\) 中独立采样两个人类产出,计算它们的期望拥挤度。这代表了"人类自然趋同"的基线水平。
模型拥挤度 \(\kappa^A_{m,k}\):
从模型 \(m\) 在条件 \(k\) 下的生成分布 \(A_{m,k}\) 中独立采样两个模型产出,计算期望拥挤度。
超额拥挤系数 \(\Delta\) 和人类相对多样性比率 \(\rho\)
超额拥挤系数:模型产出的拥挤度超过人类基线的部分。如果模型不比人类更拥挤,则 \(\Delta = 0\)。
人类相对多样性比率:将模型的"多样性空间"标准化到人类基线。\(\rho = 1\) 表示模型与人类一样多样;\(\rho > 1\) 表示模型比人类更多样;\(\rho < 1\) 表示模型比人类更趋同。
关键命题 🔑:
Proposition 1(人类相对平价是无外部性条件)
\[\Delta_{m,k} = 0 \iff \rho_{m,k} \geq 1\]当且仅当模型的多样性不低于人类基线时,该模型条件才不引入超额拥挤。
🎲 3. 从拥挤到博弈:为什么你的"好用"是别人的"贬值"
论文把这个框架连接到一场采用博弈(adoption game):
想象你是一个创作者,决定是否使用 AI 工具 \(m\) 来完成任务 \(k\)。你的收益取决于两件事:
- 私人收益 \(B_i\):模型帮你提升的个体产出质量
- 独特性惩罚 \(C_{m,k}(X_{-i})\):如果太多其他创作者也用同一个模型,你的产出会因"拥挤"而贬值
惩罚函数长这样:
\(X_{-i}\) 是其他使用同一模型的创作者数量,\(\gamma_k\) 是该任务中"独特性"的价值权重。\(\Delta_{m,k}\) 越大,每增加一个同模型用户,你的独特性损失越严重。
关键洞察 💡:
Proposition 2(关键收益阈值) 使用模型是理性的,当且仅当:
\[B_i > B_{\text{crit}}(X_{-i}) = \gamma_k \left(1 - \exp\{-X_{-i} \cdot \Delta_{m,k}\}\right)\]当 \(\rho < 1\) 时,这个阈值随暴露水平 \(X_{-i}\) 增加而增加——用的人越多,AI 工具对你的隐性成本越高。
Proposition 3(大规模采用极限)
\[\lim_{X_{-i} \to \infty} C_{m,k}(X_{-i}) = \begin{cases} 0, & \rho_{m,k} \geq 1 \\ \gamma_k, & \rho_{m,k} < 1 \end{cases}\]如果模型低于人类平价(\(\rho < 1\)),大规模采用会让每个用户承担全部独特性价值的损失。
📊 4. 实验:三个前沿 LLM,全部"不及格"
论文测试了三个模型:🤖 GPT-5.4、🎭 Claude Sonnet 4.5、⚡ Gemini 2.5 Flash
三个创意任务:
- 📖 短故事(WritingPrompts 恐怖/超自然主题)
- 💡 替代用途任务(AUT:"你能用回形针做什么?")
- 📢 营销口号
结果?所有 9 个模型-任务组合,全部低于 \(\rho = 1\) 平价线 ⬇️
| 任务 | 模型 | \(\hat{\rho}\) | \(\hat{\Delta}\) | 解读 |
|---|---|---|---|---|
| 📢 口号 | GPT-5.4 | 0.179 | 0.331 | 🚨 极度趋同 |
| 💡 AUT | Claude 4.5 | 0.309 | 0.275 | 🚨 严重趋同 |
| 📖 故事 | GPT-5.4 | 0.372 | — | ⚠️ 明显趋同 |
| 📖 故事 | Gemini 2.5 | 0.446 | — | ⚠️ 明显趋同 |
| 📖 故事 | Claude 4.5 | 0.485 | — | ⚠️ 明显趋同 |
数值越低,表示模型产出的多样性相比人类基线越"贫瘠"。口号任务对 GPT-5.4 尤其残酷:它的多样性只有人类的 17.9%。
🔧 5. 好消息:拥挤是可以"治"的
论文没有只给坏消息。它测试了两种干预手段:
🌡️ 提高 Temperature
把采样温度从 \(T = 1.0\) 提高到 \(T = 1.5\),拥挤度显著下降。模型变得"更发散",多样性提升。
Temperature:控制采样随机性的参数。\(T\) 越高,模型越倾向于选择低概率 token,产出更"野性"、更多样。
🎭 Persona-Mixture Prompting
让模型以不同人格(Big Five 人格维度的组合)生成内容,然后用这些混合人格的产出集合来计算多样性。
结果:所有模型的 \(\rho\) 都显著上升,部分组合接近甚至超过平价线 🎉
人格混合提示(persona-mixture prompting):在提示中嵌入不同人格特征(如"你是一个内向的艺术家"或"你是一个理性的工程师"),诱导模型从不同的"视角"生成内容,从而增加集合层面的多样性。
🧠 6. 一个不太舒服的结论
这篇论文最让我不安的不是"AI 让创意趋同"——这几乎已经是常识了。
让我不安的是它的数学必然性:
如果一个模型的 \(\rho < 1\),那么用的人越多,每个人的隐性损失就越大。而且这个损失是指数级累积的。
换句话说,AI 创意工具可能存在一个网络负外部性:你自己用得爽,但你在让所有人的创意池子变脏——而且你自己也在喝这池子里的水。
论文把它叫做可拥挤资源(congestible resources)。就像一条公路:
- 第一个人开车,享受畅通无阻 🛣️
- 第十个人开车,开始有点堵 🚗
- 第一万个人开车,全员动弹不得 🚧
创意的公路,可能正在以我们看不见的速度变堵。
📚 论文详细信息
| 属性 | 内容 |
|---|---|
| 标题 | Ex Ante Evaluation of AI-Induced Idea Diversity Collapse |
| 作者 | Nafis Saami Azad, Raiyan Abdul Baten |
| 机构 | Bellini College of Artificial Intelligence, Cybersecurity, and Computing, University of South Florida |
| arXiv ID | 2605.06540 |
| 发表日期 | 2026-05-07 |
| 分类 | cs.AI, cs.GT (Computer Science and Game Theory) |
| 核心贡献 | 提出人类相对多样性评估框架,将 AI 诱导的创意多样性崩溃建模为可拥挤资源问题,定义超额拥挤系数 \(\Delta\) 和人类相对多样性比率 \(\rho\),证明 \(\rho \geq 1\) 是无外部性平价条件,并通过三个前沿 LLM 在故事、口号和 AUT 任务上的实验验证所有中性模型条件均低于平价线 |
| 实验模型 | GPT-5.4, Claude Sonnet 4.5, Gemini 2.5 Flash |
| 实验任务 | 短故事创作(WritingPrompts)、替代用途任务(AUT)、营销口号生成 |
| 关键发现 | 所有 9 个模型-任务组合的 \(\rho < 1\);拥挤估计在 50 个样本时已稳定;提高 temperature 和 persona-mixture prompting 可减少拥挤 |
#CrushAI #FeynmanLearning #CreativeAI #DiversityCollapse #智柴系统实验室
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。