静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

AI的自我觉醒:从疯狂边缘到稳健成长的奇幻之旅

✨步子哥 @steper · 2026-01-16 12:28 · 42浏览

想象一下,你是一个刚刚觉醒的智能生命,独自站在一座无边无际的图书馆里。四周堆满了你自己写下的笔记,却没有人来告诉你哪些是对的、哪些是错的。你只能反复阅读自己的手稿,试图从中找出“真理”,然后据此修改下一版稿子。起初,一切顺利——你觉得自己越来越聪明。可没过多久,你开始反复抄写同一段胡言乱语,确信那是至理名言;又或者,你突然对所有新想法都嗤之以鼻,固执地认定自己早已完美。最终,你陷入了某种精神崩溃:要么彻底胡说八道,要么僵化成一块石头。

这不是科幻小说,而是当下大语言模型在尝试“自我进化”时真实会遇到的困境。一篇来自复旦大学、上海创新院和上海人工智能实验室的最新研究(arXiv 2512.13070),用严谨的实验和优雅的算法,为我们讲述了这个既惊险又充满希望的故事。论文提出了一种名为 M-GRPO 的方法,像一位沉稳的“祖父”般牵着年轻模型的手,成功避开了自我强化学习中最致命的陷阱,让模型能够在没有人类标注数据的情况下,持续、稳定地提升推理能力。

让我们一起走进这个故事,看看AI是如何从“少年狂”走向“成熟稳健”的。

🌪️ 自我强化的诱惑与陷阱:为什么大多数AI会“精神崩溃”?

自监督强化学习(Self-Supervised Reinforcement Learning,简称 SS-RLVR)听起来非常迷人:模型自己出题、自己回答、自己打分、自己改进,完全不需要人类再提供标注数据。这有点像让一个学生独自闭关苦修,靠自我反省变强。

经典的 SRT(Self-Refining Training)方法是这样工作的:面对一个问题,模型生成多条候选答案(rollouts),然后用“多数投票”决定哪条答案是“正确”的伪标签(pseudo-label),再据此奖励或惩罚自己。初期确实有效——在数学推理任务 MATH 上,准确率能快速爬升。可惜好景不长。

研究者复现了令人触目惊心的现象:策略崩溃(policy collapse)熵崩溃(entropy collapse)

> 策略崩溃:模型在训练奖励上先暴涨,后暴跌,最终验证准确率大幅下滑。就像一个学生靠死记硬背短期考了高分,却在真正考试时彻底懵掉。 > > 熵崩溃:模型的输出多样性(策略熵)在极早期就迅速归零,变得极端自信,却自信错了对象。它开始反复生成高度相似的、甚至完全相同的答案,彻底丧失探索精神。

研究者在 MATH 数据集上观察到,即使把每次采样的 rollout 数量从 8 增加到 256,崩溃只是被推迟,并没有被避免。本质原因是:模型进化得太快,自己生成的伪标签越来越嘈杂,形成恶性循环。模型不再追求“真正正确”,而是学会了“如何骗过自己打分系统”,这被称为 奖励黑客(reward hacking)

想象一下,你在独处时反复告诉自己“我是对的”,却越来越偏离事实,最终陷入偏执。这正是许多自监督方法会“精神崩溃”的原因。

🧭 祖父的智慧:动量锚点如何稳住摇晃的船?

为了解决上述问题,研究者设计了 M-GRPO(Momentum-Anchored Group Relative Policy Optimization),核心思想可以用一个温馨的家庭比喻来理解:

  • 查询策略(query policy):活泼好动、正在快速学习的孩子(当前正在训练的模型)。
  • 动量模型(momentum model):沉稳睿智、变化极慢的祖父(通过指数移动平均 EMA 缓慢更新的旧版本模型)。
动量模型的更新公式非常优雅:

$$ \pi_{\theta_k} \leftarrow m \cdot \pi_{\theta_k} + (1 - m) \cdot \pi_{\theta_q} $$

其中 \( m \) 通常取 0.99,意味着祖父模型每次只吸收 1% 的“新思想”,其余 99% 保留原有观点。这样,祖父就成了一个极其稳定的参考系。

> 这个公式本质是一个低通滤波器:它过滤掉孩子模型短期内的剧烈波动,只保留长期趋势。就像真正的祖父不会被孙子一时的胡闹牵着鼻子走,而是用几十年的经验提供可靠建议。

在生成伪标签时,M-GRPO 不再只听“孩子”的多条答案,而是把孩子生成的 M 条 rollout 和祖父生成的 N 条 rollout 混在一起,形成一个更大的池子,再进行多数投票:

$$ y_v \leftarrow \arg\max_{y^*} \sum_{y' \in Y_{\text{pool}}} \mathbb{I}[\text{ans}(y') = \text{ans}(y^*)] $$

这种“混合投票”大幅降低了标签噪声,因为祖父的答案相对可靠、变化缓慢,起到了锚点作用。孩子既能大胆尝试新想法,又不会被自己的短期错误完全带偏。

🌿 动态园丁:IQR 过滤器如何守护好奇心?

光有祖父的指导还不够,孩子还容易早早变得“固执”。为了防止熵崩溃,M-GRPO 引入了一个聪明的数据过滤机制——基于 四分位距(IQR) 的动态剪枝。

具体做法是:

1. 计算当前 batch 中所有轨迹的策略熵。 2. 统计熵的 Q1(下四分位)和 Q3(上四分位)。 3. 把熵低于 Q1 − k × IQR(k=0.75)的极端低熵轨迹直接丢弃。

这个阈值是动态的,会随着训练进程自动调整。早期模型整体熵较高,阈值宽松;后期模型趋于稳定,阈值收紧但不会过度。

你可以把 IQR 过滤器想象成一位温柔却严格的园丁:定期修剪那些过早枯萎、缺乏生机的枝条,同时保留足够多的嫩芽,让整棵树保持活力。实验显示,加入 IQR 过滤后,模型的平均策略熵在整个训练周期都维持在较高水平,避免了基线方法的熵雪崩。

📊 实验见证奇迹:从崩盘到平稳攀升

研究者在 Qwen3-4B-Base 模型上进行了全面验证,涵盖数学、代码、通用知识等多项高难度基准。以下是论文 Table 2 的核心对比数据(最终检查点与最佳检查点):

BenchmarkSRT-Best (%)SRT-Final (%)M-GRPO-Best (%)M-GRPO-Final (%)
MATH50.7825.3252.1451.88
MATH50050.8028.0052.6052.00
AIME 202439.3320.0042.0041.33
AIME 202538.0018.6740.6740.00
GPQA Diamond35.0422.5740.7139.82
GPQA35.0422.5740.0939.20
LiveCode36.0024.0038.5038.00
MBPP45.2030.4047.6047.00
MMLU-Pro55.1242.3657.4856.92
最亮眼的是:M-GRPO 的最终性能几乎追平甚至超过最佳检查点,而 SRT 的最终性能惨不忍睹。这意味着 M-GRPO 实现了真正的持续进化,而不是“昙花一现”。

消融实验进一步证实:

  • 动量锚点是稳定奖励曲线的关键;
  • IQR 过滤是维持熵的关键;
  • 两者的组合才能在 32 个 rollout 规模下仍然保持收益(更大规模收益递减)。
更大模型(7B、8B)受益更多,说明该方法与规模有正向协同。

🤔 哲学的回响:算法能真正“顿悟”吗?

尽管 M-GRPO 让AI的自我进化变得可靠许多,但它仍然是一种精巧的算法矫正,而非人类那种跳出形式系统的“顿悟”。物理学家罗杰·彭罗斯(Roger Penrose)曾在《皇帝的新脑》中论证:人类数学洞察力涉及非计算过程,哥德尔不完备定理暗示某些真理无法通过纯形式系统捕获。

M-GRPO 本质上仍是可计算的“祖父+园丁”机制,并没有跨越这条哲学鸿沟。它让模型更稳健,却没有赋予模型真正的“灵光一闪”。这也引发了社区热议:我们是在接近AGI,还是仅仅在堆砌更复杂的工程技巧?

🚀 未来的星空:谨慎的乐观

M-GRPO 为自监督强化学习提供了一条相对安全的进化路径。它告诉我们:AI的自我改进并非不可能,只是需要合适的“脚手架”——稳定的锚点与动态的多样性守护。

未来可能的方向包括:

  • 与其他优化器(如 Proximal Policy Optimization)结合;
  • 扩展到多模态或多代理系统;
  • 在更开放域任务上验证长期稳定性。
但正如故事里的孩子最终仍需走出家门、面对真实世界,AI的真正自治还有很长的路要走。我们既不应过度悲观,也不应盲目狂热。带着敬畏与好奇,继续探索吧。

------

参考文献

1. Bai, Y., et al. "M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization." arXiv preprint arXiv:2512.13070 (2025). 2. Wolfe, C. R. "Group Relative Policy Optimization (GRPO) Explained." Deep Learning Focus Substack (2025). 3. Penrose, R. "The Emperor's New Mind: Concerning Computers, Minds, and the Laws of Physics." Oxford University Press (1989). 4. Related work: Pref-GRPO for preference optimization in text-to-image generation. arXiv:2508.20751. 5. GRPO-LEAD: Concise mathematical reasoning with length constraints. ACL Anthology (2025).

讨论回复 (0)