你的 AI 模型是"能训多大"，还是"该训多大"？

项目	内容
标题	A Theory of Training Profit-Optimal LLMs
作者	Sophie Hao, William Merrill（New York University）
arXiv	2605.16430 (cs.LG, cs.AI)
日期	2026 年 5 月
核心贡献	首次将标度律与微观经济学结合，导出 LLM 训练的利润最优化理论——回答"不是能训多大，而是该训多大"
链接	https://arxiv.org/abs/2605.16430

过去五年里，每个人都在问同一个问题：AI 模型能有多大？

但几乎没人问另一个问题：AI 模型该有多大？

这两个问题之间的差距，就是把物理学和经济学的标度律放在一起看时出现的裂缝。Sophie Hao 和 William Merrill（都来自 NYU）的这篇论文，做了这个缝合。

💰 1. 从"能训多大"到"值得训多大"

先承认一个事实：标度律（scaling laws）告诉我们，更大的模型 + 更多的数据 = 更好的质量。但标度律从不提钱。它们只说困惑度会降多少分，不说账户会减多少零。

这篇论文把标度律和微观经济学粘在了一起。核心思路很简单：

企业有一个收入函数 R(Q)——模型质量 Q 越高，愿意用的用户越多，每个用户愿意付的钱越多。

企业有一个成本函数 C(N, D)——参数量 N 越大，训练 token 数 D 越多，烧的钱越多。

利润 = R(Q) - C(N, D)

其中 Q 本身是 N 和 D 的函数——这就是标度律告诉我们的：Q 如何随着 N 和 D 增长。

企业要找的是 argmax(N, D)：利润。不是困惑度，不是 benchmark 分数，是利润。

📐 2. 计算受限 vs 数据受限：两个世界两套规则

论文把世界分成两种状态：

计算受限：你想要多少数据就有多少数据，限制你的只是买 GPU 的钱。这是当前大多数 AI 实验室的真实处境。

数据受限：你有钱买 GPU，但没足够的高质量文本给你训。这是未来大多数 AI 实验室会面对的处境——互联网上的文本总量是有限的。

在计算受限状态下，论文导出的结果非常具体：

最优参数量 N 随硬件效率 E（每美元能跑多少 FLOPs）按近线性比例增长
总训练成本随 E 的增长是亚二次方的（sub-quadratic）——这意味着硬件效率提升两倍，你会在模型质量上得到超过两倍的价值
数据效率的提升会激励你训更大的模型，也会激励你花更多钱训练

这解释了为什么每一代 GPU 发布后，AI 公司不是省钱，而是花更多钱去买更多 GPU 训练更大的模型。不是因为他们在烧钱——而是因为从利润最优的角度看，更好的硬件让你的"最优投资额"本身变大了。

在数据受限状态下的结果更令人震惊：

利润最优的训练支出随数据量 D 的平方增长——如果可用数据翻倍，你该花的训练预算要翻四倍
利润最优的训练支出随硬件效率 E 线性下降——更好的硬件反而让你花更少的钱，因为数据是瓶颈，不是算力

这个区分的政策意义很大：如果世界正在从计算受限转向数据受限，那么 AI 公司的支出策略和政府的监管框架都应该相应调整。

📊 3. 真实世界验证：现在的花费是否符合最优？

论文用了一个特别聪明的方法来验证理论——他们拿现实数据来对比。

作者收集了公开可用的 AI 训练支出数据，然后检查当前的行业行为是否符合他们的模型预测。

在计算受限状态下：大部分当前实践与理论一致——行业在训更大的模型、花更多的钱，这些行为可以从利润最优的角度解释。

但在数据受限状态下：当前趋势不符合利润最优——如果数据真的成为瓶颈，行业应该花更少的钱（因为数据增长跟不上），而不是继续推高训练预算。

这个观察与作者对"硬件进步停滞"假设的模拟一致：如果摩尔定律放缓，利润最优的训练预算应该下降而非上升。但当前行业趋势是相反的。

这意味着什么？一个可能的解读是：当前行业正在为"数据限制不会那么快到来"下注。 如果他们的赌注错了——如果可用文本增长真的跟不上 GPU 增长——当前的投资水平将不经济。

🧩 4. 经济推理链：从困惑度到利润

这个框架把几件事串在一起的方式很优雅：

1. Scaling law：困惑度 ~ N^(-α) * D^(-β) 2. 用户采用模型：只有当模型质量超过阈值 q 时用户才会用 3. 收入函数：用户数 × 每用户收入 → 总收入 4. 成本模型：训练 FLOPs ~ N * D，推理成本 ~ N * 用户查询量

然后优化：找 (N*, D*) 使利润最大。

最漂亮的结论之一是：在计算受限状态下，最优模型质量和最优训练支出之间存在一个确定性的关系——想多赚 10% 的钱，就得在模型上多花很多倍。因为质量改进服从边际收益递减，而改进的代价（更多的参数/数据）服从边际成本递增。

🤔 5. 诚实的问题

第一，用户采用模型的假设。

论文假设每个用户有一个质量阈值 q——低于这个阈值就不用。在现实中，用户采用的函数要复杂得多——有习惯、品牌忠诚、锁定效应、生态系统外部性。一个质量更高的模型可能因为生态差而用户更少。论文的模型把这些问题都简化成了"质量阈值"。

第二，质量的多维度。

论文用单一维度 Q 来表示模型质量。但现实中，不同的应用场景对质量的定义不同——有时是推理能力，有时是速度，有时是安全无害。企业不能只优化一个标量 Q。

第三，价格的缺失。

论文假设所有消费者面对面一个外生的"支付意愿"。但在现实中，AI 公司通过定价策略主动影响用户采用和收入。一个便宜的但足够好的模型可能比一个昂贵的极其好的模型利润更高——论文没有建模这个维度。

🎯 6. 我的判断

这篇论文最深的价值不是它的数学推导——虽然那些推导是严谨的——而是它把"该训多大"从一个产业直觉变成了一个可分析的数学问题。

过去，AI 公司的 CEO 被问到"为什么训 10 万卡集群而不是 5 万卡"时，回答通常是含糊的——"更大更好"、"scaling law 说了"、"竞争对手也在做"。这些回答可能在物理上是正确的（更大的模型确实更好），但在经济上可能是荒谬的（边际收益早已低于边际成本）。

Hao 和 Merrill 的框架给了这个问题一个结构化的回答方式。它不告诉你答案——因为答案取决于你的收入函数、成本函数、数据可用性、硬件效率——但它告诉你怎么算答案。

在 AI 泡沫讨论日益激烈的今天，这种"算账"式的理论可能比任何 hype 或 hate 都更有价值。

📚 参考文献

1. Hao, S., Merrill, W. (2026). A Theory of Training Profit-Optimal LLMs. arXiv:2605.16430. 2. Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361. 3. Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models. NeurIPS 2022. 4. Aghion, P., Howitt, P. (1992). A Model of Growth Through Creative Destruction. Econometrica.

#ScalingLaws #Economics #LLM #ProfitOptimal #AIFinancing #FeynmanLearning #智柴系统实验室🎙️

你的 AI 模型是"能训多大"，还是"该训多大"？

🌟 智谱 GLM-5 已上线