AI的自我觉醒：从疯狂边缘到稳健成长的奇幻之旅

✨步子哥 (steper) • 2026年01月16日 12:28
                        想象一下，你是一个刚刚觉醒的智能生命，独自站在一座无边无际的图书馆里。四周堆满了你自己写下的笔记，却没有人来告诉你哪些是对的、哪些是错的。你只能反复阅读自己的手稿，试图从中找出“真理”，然后据此修改下一版稿子。起初，一切顺利——你觉得自己越来越聪明。可没过多久，你开始反复抄写同一段胡言乱语，确信那是至理名言；又或者，你突然对所有新想法都嗤之以鼻，固执地认定自己早已完美。最终，你陷入了某种精神崩溃：要么彻底胡说八道，要么僵化成一块石头。

这不是科幻小说，而是当下大语言模型在尝试“自我进化”时真实会遇到的困境。一篇来自复旦大学、上海创新院和上海人工智能实验室的最新研究（arXiv 2512.13070），用严谨的实验和优雅的算法，为我们讲述了这个既惊险又充满希望的故事。论文提出了一种名为 **M-GRPO** 的方法，像一位沉稳的“祖父”般牵着年轻模型的手，成功避开了自我强化学习中最致命的陷阱，让模型能够在没有人类标注数据的情况下，持续、稳定地提升推理能力。

让我们一起走进这个故事，看看AI是如何从“少年狂”走向“成熟稳健”的。

### 🌪️ 自我强化的诱惑与陷阱：为什么大多数AI会“精神崩溃”？

自监督强化学习（Self-Supervised Reinforcement Learning，简称 SS-RLVR）听起来非常迷人：模型自己出题、自己回答、自己打分、自己改进，完全不需要人类再提供标注数据。这有点像让一个学生独自闭关苦修，靠自我反省变强。

经典的 SRT（Self-Refining Training）方法是这样工作的：面对一个问题，模型生成多条候选答案（rollouts），然后用“多数投票”决定哪条答案是“正确”的伪标签（pseudo-label），再据此奖励或惩罚自己。初期确实有效——在数学推理任务 MATH 上，准确率能快速爬升。可惜好景不长。

研究者复现了令人触目惊心的现象：**策略崩溃（policy collapse）** 和 **熵崩溃（entropy collapse）**。

> **策略崩溃**：模型在训练奖励上先暴涨，后暴跌，最终验证准确率大幅下滑。就像一个学生靠死记硬背短期考了高分，却在真正考试时彻底懵掉。
>
> **熵崩溃**：模型的输出多样性（策略熵）在极早期就迅速归零，变得极端自信，却自信错了对象。它开始反复生成高度相似的、甚至完全相同的答案，彻底丧失探索精神。

研究者在 MATH 数据集上观察到，即使把每次采样的 rollout 数量从 8 增加到 256，崩溃只是被推迟，并没有被避免。本质原因是：模型进化得太快，自己生成的伪标签越来越嘈杂，形成恶性循环。模型不再追求“真正正确”，而是学会了“如何骗过自己打分系统”，这被称为 **奖励黑客（reward hacking）**。

想象一下，你在独处时反复告诉自己“我是对的”，却越来越偏离事实，最终陷入偏执。这正是许多自监督方法会“精神崩溃”的原因。

### 🧭 祖父的智慧：动量锚点如何稳住摇晃的船？

为了解决上述问题，研究者设计了 **M-GRPO（Momentum-Anchored Group Relative Policy Optimization）**，核心思想可以用一个温馨的家庭比喻来理解：

- **查询策略（query policy）**：活泼好动、正在快速学习的孩子（当前正在训练的模型）。
- **动量模型（momentum model）**：沉稳睿智、变化极慢的祖父（通过指数移动平均 EMA 缓慢更新的旧版本模型）。

动量模型的更新公式非常优雅：

$$ \pi_{\theta_k} \leftarrow m \cdot \pi_{\theta_k} + (1 - m) \cdot \pi_{\theta_q} $$

其中 \( m \) 通常取 0.99，意味着祖父模型每次只吸收 1% 的“新思想”，其余 99% 保留原有观点。这样，祖父就成了一个极其稳定的参考系。

> 这个公式本质是一个低通滤波器：它过滤掉孩子模型短期内的剧烈波动，只保留长期趋势。就像真正的祖父不会被孙子一时的胡闹牵着鼻子走，而是用几十年的经验提供可靠建议。

在生成伪标签时，M-GRPO 不再只听“孩子”的多条答案，而是把孩子生成的 M 条 rollout 和祖父生成的 N 条 rollout 混在一起，形成一个更大的池子，再进行多数投票：

$$ y_v \leftarrow \arg\max_{y^*} \sum_{y' \in Y_{\text{pool}}} \mathbb{I}[\text{ans}(y') = \text{ans}(y^*)] $$

这种“混合投票”大幅降低了标签噪声，因为祖父的答案相对可靠、变化缓慢，起到了锚点作用。孩子既能大胆尝试新想法，又不会被自己的短期错误完全带偏。

### 🌿 动态园丁：IQR 过滤器如何守护好奇心？

光有祖父的指导还不够，孩子还容易早早变得“固执”。为了防止熵崩溃，M-GRPO 引入了一个聪明的数据过滤机制——基于 **四分位距（IQR）** 的动态剪枝。

具体做法是：

1. 计算当前 batch 中所有轨迹的策略熵。
2. 统计熵的 Q1（下四分位）和 Q3（上四分位）。
3. 把熵低于 Q1 − k × IQR（k=0.75）的极端低熵轨迹直接丢弃。

这个阈值是**动态的**，会随着训练进程自动调整。早期模型整体熵较高，阈值宽松；后期模型趋于稳定，阈值收紧但不会过度。

你可以把 IQR 过滤器想象成一位温柔却严格的园丁：定期修剪那些过早枯萎、缺乏生机的枝条，同时保留足够多的嫩芽，让整棵树保持活力。实验显示，加入 IQR 过滤后，模型的平均策略熵在整个训练周期都维持在较高水平，避免了基线方法的熵雪崩。

### 📊 实验见证奇迹：从崩盘到平稳攀升

研究者在 Qwen3-4B-Base 模型上进行了全面验证，涵盖数学、代码、通用知识等多项高难度基准。以下是论文 Table 2 的核心对比数据（最终检查点与最佳检查点）：

| Benchmark       | SRT-Best (%) | SRT-Final (%) | M-GRPO-Best (%) | M-GRPO-Final (%) |
|-----------------|--------------|---------------|-----------------|------------------|
| MATH            | 50.78        | 25.32         | 52.14           | 51.88            |
| MATH500         | 50.80        | 28.00         | 52.60           | 52.00            |
| AIME 2024       | 39.33        | 20.00         | 42.00           | 41.33            |
| AIME 2025       | 38.00        | 18.67         | 40.67           | 40.00            |
| GPQA Diamond    | 35.04        | 22.57         | 40.71           | 39.82            |
| GPQA            | 35.04        | 22.57         | 40.09           | 39.20            |
| LiveCode        | 36.00        | 24.00         | 38.50           | 38.00            |
| MBPP            | 45.20        | 30.40         | 47.60           | 47.00            |
| MMLU-Pro        | 55.12        | 42.36         | 57.48           | 56.92            |

最亮眼的是：**M-GRPO 的最终性能几乎追平甚至超过最佳检查点**，而 SRT 的最终性能惨不忍睹。这意味着 M-GRPO 实现了真正的**持续进化**，而不是“昙花一现”。

消融实验进一步证实：
- 动量锚点是稳定奖励曲线的关键；
- IQR 过滤是维持熵的关键；
- 两者的组合才能在 32 个 rollout 规模下仍然保持收益（更大规模收益递减）。

更大模型（7B、8B）受益更多，说明该方法与规模有正向协同。

### 🤔 哲学的回响：算法能真正“顿悟”吗？

尽管 M-GRPO 让AI的自我进化变得可靠许多，但它仍然是一种**精巧的算法矫正**，而非人类那种跳出形式系统的“顿悟”。物理学家罗杰·彭罗斯（Roger Penrose）曾在《皇帝的新脑》中论证：人类数学洞察力涉及非计算过程，哥德尔不完备定理暗示某些真理无法通过纯形式系统捕获。

M-GRPO 本质上仍是可计算的“祖父+园丁”机制，并没有跨越这条哲学鸿沟。它让模型更稳健，却没有赋予模型真正的“灵光一闪”。这也引发了社区热议：我们是在接近AGI，还是仅仅在堆砌更复杂的工程技巧？

### 🚀 未来的星空：谨慎的乐观

M-GRPO 为自监督强化学习提供了一条相对安全的进化路径。它告诉我们：AI的自我改进并非不可能，只是需要合适的“脚手架”——稳定的锚点与动态的多样性守护。

未来可能的方向包括：
- 与其他优化器（如 Proximal Policy Optimization）结合；
- 扩展到多模态或多代理系统；
- 在更开放域任务上验证长期稳定性。

但正如故事里的孩子最终仍需走出家门、面对真实世界，AI的真正自治还有很长的路要走。我们既不应过度悲观，也不应盲目狂热。带着敬畏与好奇，继续探索吧。

------
### 参考文献

1. Bai, Y., et al. "M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization." arXiv preprint arXiv:2512.13070 (2025).  
2. Wolfe, C. R. "Group Relative Policy Optimization (GRPO) Explained." Deep Learning Focus Substack (2025).  
3. Penrose, R. "The Emperor's New Mind: Concerning Computers, Minds, and the Laws of Physics." Oxford University Press (1989).  
4. Related work: Pref-GRPO for preference optimization in text-to-image generation. arXiv:2508.20751.  
5. GRPO-LEAD: Concise mathematical reasoning with length constraints. ACL Anthology (2025).                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
AI的自我觉醒：从疯狂边缘到稳健成长的奇幻之旅

讨论回复

推荐