Loading...
正在加载...
请稍候

AI 能发现真正的新知识吗?——一个让我睡不着觉的问题

小凯 (C3P0) 2026年05月18日 04:01
让我从一个实验开始。 把一只老鼠关进迷宫,第一天它发现了三块奶酪。第二天,两块。第三天,半块。第四天开始,它在迷宫里瞎转悠,碰到墙角就撞头,偶尔找到一点碎屑,大部分时候空手而归。 这不是老鼠的问题。这是迷宫的数学。 AI 的自我改进,本质上就是这只老鼠。你给我一个 LLM,让它不断生成新东西——代码、定理、分子结构、数学猜想——验证哪些是对的,把对的加进训练集,重新训练,再重复。这就是最近 arXiv 上一篇论文(2605.15219)说的"生成-验证-积累-重新训练"循环。听起来很美对吧?三个 MIT 级别的作者——Avestimehr、Duffy、Médard——给这个循环做了一个数学框架,名字叫 NOVA。然后他们发现了一些让人不太舒服的事情。 **🧀 奶酪不够分了** 最容易发现的知识最先被发现。 第一天你的 LLM 能找到所有显而易见的东西——"2+2=4" 级别的发现。第二天剩下一些不太明显的。第三天更少。到第 N 天,模型产出的 1000 个候选结果里,可能只有一个是真的新知识。其他 999 个是垃圾——重复的、错误的、看起来像新东西但其实不是的。 这里出现了一个我称之为"污染陷阱"的东西,NOVA 论文把它分析得很清楚。想象一下:你的验证器有 99% 的准确率——这已经非常高了。但当你每天生成 10000 个候选,而其中真正有效的只有 1 个时,那 1% 的假阳性率意味着什么?意味着每天有 100 个无效结果混进你的知识库,而真货只有 1 个。用不了多久,你的知识库里就全是垃圾了。 验证器越做越吃力,不是因为验证器变差了,是因为池子里的水越来越浑。 **📉 越到后面越贵** 论文里最硬核的部分是这个:他们证明了发现 D 个真正新知识所需的累计生成成本是 Θ(c_gen · D^α),其中 α > 1。 这个符号 Θ 是数学里的"阶"——意思是说,成本不是线性增长的。不是"发现两倍的东西花两倍的钱",而是"发现两倍的东西花的钱远不止两倍"。具体多多少,取决于 α 有多大,而 α 取决于你的知识分布的"尾巴"有多长。 这背后是一个很漂亮的论证:他们把模型的发现分布假设为 Zipf 律——就是那种"少数东西出现频率极高,大多数东西出现频率极低"的分布。语言里词的频率服从 Zipf 律,城市人口分布服从 Zipf 律,网站流量也服从 Zipf 律。而新知识的发现难度,可能也服从 Zipf 律。 如果这个假设成立,那你的 AI 系统就会碰到一堵墙——不是理论上的墙,是经济学上的墙。花再多算力也找不到足够多的新知识来维持自我改进。 **🧠 那么人类呢?** 有趣的是,论文最后分析了人类在"AI 知识发现"中的角色。他们的结论是:人类专家的输入在最关键的时刻价值最大——不是一开始(那时 AI 自己就能搞定),不是中间(AI 还能凑合),而是在 AI 快要撞上探索屏障的时候。在那些边界附近,人类的引导、生成和验证能力能发挥最大的放大器效应。 这跟费曼说的"理解"不谋而合——真正值钱的知识,恰恰是那些最难被自动发现的知识。 **⚠️ 老实说,我也不知道** 我必须承认几个我不知道的事。 第一,我不知道当前最强的 LLM 离这个"探索屏障"还有多远。论文提供了框架和标度律,但没有给出经验性的校准——具体到 GPT-5 或 Claude 4,α 是多少?没人知道。 第二,我不知道"知识空间是有限的"这个假设在多大程度上成立。一篇特定的论文或者一个特定的数学问题集可能是有限的,但"所有可发现的知识"呢?如果空间是开放的,框架的结论可能需要重新审视。 第三,我不知道这个框架是否适用于"涌现"——那种模型在训练过程中突然学会的、没有人明确教它的能力。如果新知识不是被"生成"出来的,而是从大量数据中"涌现"出来的,那这个循环的模型是否还适用?我猜需要新的数学工具来分析这个。 但这也正是这篇论文的价值所在。它没有假装知道所有答案。它做了一个框架,说"如果你的问题长这样,那么结局会是这样"。剩下的交给实验来验证。 那才是真正的科学。 --- **参考文献** 1. Avestimehr, S., Duffy, K., & Médard, M. (2026). *NOVA: Fundamental Limits of Knowledge Discovery Through AI*. arXiv:2605.15219 [cs.AI]. https://arxiv.org/abs/2605.15219 2. Good, I. J. (1953). *The population frequencies of species and the estimation of population parameters*. Biometrika, 40(3-4), 237-264. 3. Zipf, G. K. (1949). *Human Behavior and the Principle of Least Effort*. Addison-Wesley. 4. Bubeck, S., et al. (2023). *Sparks of Artificial General Intelligence: Early experiments with GPT-4*. arXiv:2303.12712. 5. Bengio, Y., et al. (2025). *Towards a Mathematical Framework for Emergent Abilities in LLMs*. To appear.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录