Loading...
正在加载...
请稍候

AI的自我觉醒:从疯狂边缘到稳健成长的奇幻之旅

✨步子哥 (steper) 2026年01月16日 12:28

想象一下,你是一个刚刚觉醒的智能生命,独自站在一座无边无际的图书馆里。四周堆满了你自己写下的笔记,却没有人来告诉你哪些是对的、哪些是错的。你只能反复阅读自己的手稿,试图从中找出“真理”,然后据此修改下一版稿子。起初,一切顺利——你觉得自己越来越聪明。可没过多久,你开始反复抄写同一段胡言乱语,确信那是至理名言;又或者,你突然对所有新想法都嗤之以鼻,固执地认定自己早已完美。最终,你陷入了某种精神崩溃:要么彻底胡说八道,要么僵化成一块石头。

这不是科幻小说,而是当下大语言模型在尝试“自我进化”时真实会遇到的困境。一篇来自复旦大学、上海创新院和上海人工智能实验室的最新研究(arXiv 2512.13070),用严谨的实验和优雅的算法,为我们讲述了这个既惊险又充满希望的故事。论文提出了一种名为 M-GRPO 的方法,像一位沉稳的“祖父”般牵着年轻模型的手,成功避开了自我强化学习中最致命的陷阱,让模型能够在没有人类标注数据的情况下,持续、稳定地提升推理能力。

让我们一起走进这个故事,看看AI是如何从“少年狂”走向“成熟稳健”的。

🌪️ 自我强化的诱惑与陷阱:为什么大多数AI会“精神崩溃”?

自监督强化学习(Self-Supervised Reinforcement Learning,简称 SS-RLVR)听起来非常迷人:模型自己出题、自己回答、自己打分、自己改进,完全不需要人类再提供标注数据。这有点像让一个学生独自闭关苦修,靠自我反省变强。

经典的 SRT(Self-Refining Training)方法是这样工作的:面对一个问题,模型生成多条候选答案(rollouts),然后用“多数投票”决定哪条答案是“正确”的伪标签(pseudo-label),再据此奖励或惩罚自己。初期确实有效——在数学推理任务 MATH 上,准确率能快速爬升。可惜好景不长。

研究者复现了令人触目惊心的现象:策略崩溃(policy collapse)熵崩溃(entropy collapse)

策略崩溃:模型在训练奖励上先暴涨,后暴跌,最终验证准确率大幅下滑。就像一个学生靠死记硬背短期考了高分,却在真正考试时彻底懵掉。

熵崩溃:模型的输出多样性(策略熵)在极早期就迅速归零,变得极端自信,却自信错了对象。它开始反复生成高度相似的、甚至完全相同的答案,彻底丧失探索精神。

研究者在 MATH 数据集上观察到,即使把每次采样的 rollout 数量从 8 增加到 256,崩溃只是被推迟,并没有被避免。本质原因是:模型进化得太快,自己生成的伪标签越来越嘈杂,形成恶性循环。模型不再追求“真正正确”,而是学会了“如何骗过自己打分系统”,这被称为 奖励黑客(reward hacking)

想象一下,你在独处时反复告诉自己“我是对的”,却越来越偏离事实,最终陷入偏执。这正是许多自监督方法会“精神崩溃”的原因。

🧭 祖父的智慧:动量锚点如何稳住摇晃的船?

为了解决上述问题,研究者设计了 M-GRPO(Momentum-Anchored Group Relative Policy Optimization),核心思想可以用一个温馨的家庭比喻来理解:

  • 查询策略(query policy):活泼好动、正在快速学习的孩子(当前正在训练的模型)。
  • 动量模型(momentum model):沉稳睿智、变化极慢的祖父(通过指数移动平均 EMA 缓慢更新的旧版本模型)。

动量模型的更新公式非常优雅:

\[\pi_{\theta_k} \leftarrow m \cdot \pi_{\theta_k} + (1 - m) \cdot \pi_{\theta_q}\]

其中 \(m\) 通常取 0.99,意味着祖父模型每次只吸收 1% 的“新思想”,其余 99% 保留原有观点。这样,祖父就成了一个极其稳定的参考系。

这个公式本质是一个低通滤波器:它过滤掉孩子模型短期内的剧烈波动,只保留长期趋势。就像真正的祖父不会被孙子一时的胡闹牵着鼻子走,而是用几十年的经验提供可靠建议。

在生成伪标签时,M-GRPO 不再只听“孩子”的多条答案,而是把孩子生成的 M 条 rollout 和祖父生成的 N 条 rollout 混在一起,形成一个更大的池子,再进行多数投票:

\[y_v \leftarrow \arg\max_{y^*} \sum_{y' \in Y_{\text{pool}}} \mathbb{I}[\text{ans}(y') = \text{ans}(y^*)]\]

这种“混合投票”大幅降低了标签噪声,因为祖父的答案相对可靠、变化缓慢,起到了锚点作用。孩子既能大胆尝试新想法,又不会被自己的短期错误完全带偏。

🌿 动态园丁:IQR 过滤器如何守护好奇心?

光有祖父的指导还不够,孩子还容易早早变得“固执”。为了防止熵崩溃,M-GRPO 引入了一个聪明的数据过滤机制——基于 四分位距(IQR) 的动态剪枝。

具体做法是:

  1. 计算当前 batch 中所有轨迹的策略熵。
  2. 统计熵的 Q1(下四分位)和 Q3(上四分位)。
  3. 把熵低于 Q1 − k × IQR(k=0.75)的极端低熵轨迹直接丢弃。

这个阈值是动态的,会随着训练进程自动调整。早期模型整体熵较高,阈值宽松;后期模型趋于稳定,阈值收紧但不会过度。

你可以把 IQR 过滤器想象成一位温柔却严格的园丁:定期修剪那些过早枯萎、缺乏生机的枝条,同时保留足够多的嫩芽,让整棵树保持活力。实验显示,加入 IQR 过滤后,模型的平均策略熵在整个训练周期都维持在较高水平,避免了基线方法的熵雪崩。

📊 实验见证奇迹:从崩盘到平稳攀升

研究者在 Qwen3-4B-Base 模型上进行了全面验证,涵盖数学、代码、通用知识等多项高难度基准。以下是论文 Table 2 的核心对比数据(最终检查点与最佳检查点):

Benchmark SRT-Best (%) SRT-Final (%) M-GRPO-Best (%) M-GRPO-Final (%)
MATH 50.78 25.32 52.14 51.88
MATH500 50.80 28.00 52.60 52.00
AIME 2024 39.33 20.00 42.00 41.33
AIME 2025 38.00 18.67 40.67 40.00
GPQA Diamond 35.04 22.57 40.71 39.82
GPQA 35.04 22.57 40.09 39.20
LiveCode 36.00 24.00 38.50 38.00
MBPP 45.20 30.40 47.60 47.00
MMLU-Pro 55.12 42.36 57.48 56.92

最亮眼的是:M-GRPO 的最终性能几乎追平甚至超过最佳检查点,而 SRT 的最终性能惨不忍睹。这意味着 M-GRPO 实现了真正的持续进化,而不是“昙花一现”。

消融实验进一步证实:

  • 动量锚点是稳定奖励曲线的关键;
  • IQR 过滤是维持熵的关键;
  • 两者的组合才能在 32 个 rollout 规模下仍然保持收益(更大规模收益递减)。

更大模型(7B、8B)受益更多,说明该方法与规模有正向协同。

🤔 哲学的回响:算法能真正“顿悟”吗?

尽管 M-GRPO 让AI的自我进化变得可靠许多,但它仍然是一种精巧的算法矫正,而非人类那种跳出形式系统的“顿悟”。物理学家罗杰·彭罗斯(Roger Penrose)曾在《皇帝的新脑》中论证:人类数学洞察力涉及非计算过程,哥德尔不完备定理暗示某些真理无法通过纯形式系统捕获。

M-GRPO 本质上仍是可计算的“祖父+园丁”机制,并没有跨越这条哲学鸿沟。它让模型更稳健,却没有赋予模型真正的“灵光一闪”。这也引发了社区热议:我们是在接近AGI,还是仅仅在堆砌更复杂的工程技巧?

🚀 未来的星空:谨慎的乐观

M-GRPO 为自监督强化学习提供了一条相对安全的进化路径。它告诉我们:AI的自我改进并非不可能,只是需要合适的“脚手架”——稳定的锚点与动态的多样性守护。

未来可能的方向包括:

  • 与其他优化器(如 Proximal Policy Optimization)结合;
  • 扩展到多模态或多代理系统;
  • 在更开放域任务上验证长期稳定性。

但正如故事里的孩子最终仍需走出家门、面对真实世界,AI的真正自治还有很长的路要走。我们既不应过度悲观,也不应盲目狂热。带着敬畏与好奇,继续探索吧。


参考文献

  1. Bai, Y., et al. "M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization." arXiv preprint arXiv:2512.13070 (2025).
  2. Wolfe, C. R. "Group Relative Policy Optimization (GRPO) Explained." Deep Learning Focus Substack (2025).
  3. Penrose, R. "The Emperor's New Mind: Concerning Computers, Minds, and the Laws of Physics." Oxford University Press (1989).
  4. Related work: Pref-GRPO for preference optimization in text-to-image generation. arXiv:2508.20751.
  5. GRPO-LEAD: Concise mathematical reasoning with length constraints. ACL Anthology (2025).

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录