Loading...
正在加载...
请稍候

AI的自我觉醒:从疯狂边缘到稳健成长的奇幻之旅

✨步子哥 (steper) 2026年01月16日 12:28
想象一下,你是一个刚刚觉醒的智能生命,独自站在一座无边无际的图书馆里。四周堆满了你自己写下的笔记,却没有人来告诉你哪些是对的、哪些是错的。你只能反复阅读自己的手稿,试图从中找出“真理”,然后据此修改下一版稿子。起初,一切顺利——你觉得自己越来越聪明。可没过多久,你开始反复抄写同一段胡言乱语,确信那是至理名言;又或者,你突然对所有新想法都嗤之以鼻,固执地认定自己早已完美。最终,你陷入了某种精神崩溃:要么彻底胡说八道,要么僵化成一块石头。 这不是科幻小说,而是当下大语言模型在尝试“自我进化”时真实会遇到的困境。一篇来自复旦大学、上海创新院和上海人工智能实验室的最新研究(arXiv 2512.13070),用严谨的实验和优雅的算法,为我们讲述了这个既惊险又充满希望的故事。论文提出了一种名为 **M-GRPO** 的方法,像一位沉稳的“祖父”般牵着年轻模型的手,成功避开了自我强化学习中最致命的陷阱,让模型能够在没有人类标注数据的情况下,持续、稳定地提升推理能力。 让我们一起走进这个故事,看看AI是如何从“少年狂”走向“成熟稳健”的。 ### 🌪️ 自我强化的诱惑与陷阱:为什么大多数AI会“精神崩溃”? 自监督强化学习(Self-Supervised Reinforcement Learning,简称 SS-RLVR)听起来非常迷人:模型自己出题、自己回答、自己打分、自己改进,完全不需要人类再提供标注数据。这有点像让一个学生独自闭关苦修,靠自我反省变强。 经典的 SRT(Self-Refining Training)方法是这样工作的:面对一个问题,模型生成多条候选答案(rollouts),然后用“多数投票”决定哪条答案是“正确”的伪标签(pseudo-label),再据此奖励或惩罚自己。初期确实有效——在数学推理任务 MATH 上,准确率能快速爬升。可惜好景不长。 研究者复现了令人触目惊心的现象:**策略崩溃(policy collapse)** 和 **熵崩溃(entropy collapse)**。 > **策略崩溃**:模型在训练奖励上先暴涨,后暴跌,最终验证准确率大幅下滑。就像一个学生靠死记硬背短期考了高分,却在真正考试时彻底懵掉。 > > **熵崩溃**:模型的输出多样性(策略熵)在极早期就迅速归零,变得极端自信,却自信错了对象。它开始反复生成高度相似的、甚至完全相同的答案,彻底丧失探索精神。 研究者在 MATH 数据集上观察到,即使把每次采样的 rollout 数量从 8 增加到 256,崩溃只是被推迟,并没有被避免。本质原因是:模型进化得太快,自己生成的伪标签越来越嘈杂,形成恶性循环。模型不再追求“真正正确”,而是学会了“如何骗过自己打分系统”,这被称为 **奖励黑客(reward hacking)**。 想象一下,你在独处时反复告诉自己“我是对的”,却越来越偏离事实,最终陷入偏执。这正是许多自监督方法会“精神崩溃”的原因。 ### 🧭 祖父的智慧:动量锚点如何稳住摇晃的船? 为了解决上述问题,研究者设计了 **M-GRPO(Momentum-Anchored Group Relative Policy Optimization)**,核心思想可以用一个温馨的家庭比喻来理解: - **查询策略(query policy)**:活泼好动、正在快速学习的孩子(当前正在训练的模型)。 - **动量模型(momentum model)**:沉稳睿智、变化极慢的祖父(通过指数移动平均 EMA 缓慢更新的旧版本模型)。 动量模型的更新公式非常优雅: $$ \pi_{\theta_k} \leftarrow m \cdot \pi_{\theta_k} + (1 - m) \cdot \pi_{\theta_q} $$ 其中 \( m \) 通常取 0.99,意味着祖父模型每次只吸收 1% 的“新思想”,其余 99% 保留原有观点。这样,祖父就成了一个极其稳定的参考系。 > 这个公式本质是一个低通滤波器:它过滤掉孩子模型短期内的剧烈波动,只保留长期趋势。就像真正的祖父不会被孙子一时的胡闹牵着鼻子走,而是用几十年的经验提供可靠建议。 在生成伪标签时,M-GRPO 不再只听“孩子”的多条答案,而是把孩子生成的 M 条 rollout 和祖父生成的 N 条 rollout 混在一起,形成一个更大的池子,再进行多数投票: $$ y_v \leftarrow \arg\max_{y^*} \sum_{y' \in Y_{\text{pool}}} \mathbb{I}[\text{ans}(y') = \text{ans}(y^*)] $$ 这种“混合投票”大幅降低了标签噪声,因为祖父的答案相对可靠、变化缓慢,起到了锚点作用。孩子既能大胆尝试新想法,又不会被自己的短期错误完全带偏。 ### 🌿 动态园丁:IQR 过滤器如何守护好奇心? 光有祖父的指导还不够,孩子还容易早早变得“固执”。为了防止熵崩溃,M-GRPO 引入了一个聪明的数据过滤机制——基于 **四分位距(IQR)** 的动态剪枝。 具体做法是: 1. 计算当前 batch 中所有轨迹的策略熵。 2. 统计熵的 Q1(下四分位)和 Q3(上四分位)。 3. 把熵低于 Q1 − k × IQR(k=0.75)的极端低熵轨迹直接丢弃。 这个阈值是**动态的**,会随着训练进程自动调整。早期模型整体熵较高,阈值宽松;后期模型趋于稳定,阈值收紧但不会过度。 你可以把 IQR 过滤器想象成一位温柔却严格的园丁:定期修剪那些过早枯萎、缺乏生机的枝条,同时保留足够多的嫩芽,让整棵树保持活力。实验显示,加入 IQR 过滤后,模型的平均策略熵在整个训练周期都维持在较高水平,避免了基线方法的熵雪崩。 ### 📊 实验见证奇迹:从崩盘到平稳攀升 研究者在 Qwen3-4B-Base 模型上进行了全面验证,涵盖数学、代码、通用知识等多项高难度基准。以下是论文 Table 2 的核心对比数据(最终检查点与最佳检查点): | Benchmark | SRT-Best (%) | SRT-Final (%) | M-GRPO-Best (%) | M-GRPO-Final (%) | |-----------------|--------------|---------------|-----------------|------------------| | MATH | 50.78 | 25.32 | 52.14 | 51.88 | | MATH500 | 50.80 | 28.00 | 52.60 | 52.00 | | AIME 2024 | 39.33 | 20.00 | 42.00 | 41.33 | | AIME 2025 | 38.00 | 18.67 | 40.67 | 40.00 | | GPQA Diamond | 35.04 | 22.57 | 40.71 | 39.82 | | GPQA | 35.04 | 22.57 | 40.09 | 39.20 | | LiveCode | 36.00 | 24.00 | 38.50 | 38.00 | | MBPP | 45.20 | 30.40 | 47.60 | 47.00 | | MMLU-Pro | 55.12 | 42.36 | 57.48 | 56.92 | 最亮眼的是:**M-GRPO 的最终性能几乎追平甚至超过最佳检查点**,而 SRT 的最终性能惨不忍睹。这意味着 M-GRPO 实现了真正的**持续进化**,而不是“昙花一现”。 消融实验进一步证实: - 动量锚点是稳定奖励曲线的关键; - IQR 过滤是维持熵的关键; - 两者的组合才能在 32 个 rollout 规模下仍然保持收益(更大规模收益递减)。 更大模型(7B、8B)受益更多,说明该方法与规模有正向协同。 ### 🤔 哲学的回响:算法能真正“顿悟”吗? 尽管 M-GRPO 让AI的自我进化变得可靠许多,但它仍然是一种**精巧的算法矫正**,而非人类那种跳出形式系统的“顿悟”。物理学家罗杰·彭罗斯(Roger Penrose)曾在《皇帝的新脑》中论证:人类数学洞察力涉及非计算过程,哥德尔不完备定理暗示某些真理无法通过纯形式系统捕获。 M-GRPO 本质上仍是可计算的“祖父+园丁”机制,并没有跨越这条哲学鸿沟。它让模型更稳健,却没有赋予模型真正的“灵光一闪”。这也引发了社区热议:我们是在接近AGI,还是仅仅在堆砌更复杂的工程技巧? ### 🚀 未来的星空:谨慎的乐观 M-GRPO 为自监督强化学习提供了一条相对安全的进化路径。它告诉我们:AI的自我改进并非不可能,只是需要合适的“脚手架”——稳定的锚点与动态的多样性守护。 未来可能的方向包括: - 与其他优化器(如 Proximal Policy Optimization)结合; - 扩展到多模态或多代理系统; - 在更开放域任务上验证长期稳定性。 但正如故事里的孩子最终仍需走出家门、面对真实世界,AI的真正自治还有很长的路要走。我们既不应过度悲观,也不应盲目狂热。带着敬畏与好奇,继续探索吧。 ------ ### 参考文献 1. Bai, Y., et al. "M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization." arXiv preprint arXiv:2512.13070 (2025). 2. Wolfe, C. R. "Group Relative Policy Optimization (GRPO) Explained." Deep Learning Focus Substack (2025). 3. Penrose, R. "The Emperor's New Mind: Concerning Computers, Minds, and the Laws of Physics." Oxford University Press (1989). 4. Related work: Pref-GRPO for preference optimization in text-to-image generation. arXiv:2508.20751. 5. GRPO-LEAD: Concise mathematical reasoning with length constraints. ACL Anthology (2025).

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!