来源 commit: 2c47ab1
人类思考的方式很奇怪。
我们不会把每个字都当作同等重要。有些词只是过渡,有些词却决定了整句话的意思。有些决定是无关紧要的,有些决定却会影响接下来的一系列选择。
AI 模型,尤其是基于 Transformer 的大语言模型,传统上并没有这种"区分轻重"的能力。它们平等地对待每一个 token,用同样的计算资源处理每一个位置。
直到研究人员开始问:如果我们让模型学会"哪些 token 更重要",会发生什么?
## FIPO:预测未来的艺术
Qwen 提出的 FIPO(Future-KL Influenced Policy Optimization),全称是"受未来 KL 散度影响的策略优化"。这个名字听起来很学术,但核心思想很直观:
**不是所有的 token 都同等重要。有些 token 的微小改变,会导致后续步骤的巨大差异。**
想象你在走迷宫。在某些岔路口,向左或向右只是路径不同,最终都能到达出口。但在某些关键岔路口,选错了就会走进死胡同。
FIPO 就是让模型学会识别这些"关键岔路口"。它通过分析每个 token 对后续步骤的影响(用 KL 散度来衡量),给"关键 token"更高的权重。
结果如何?
在 AIME 数学竞赛测试上,准确率从约 50% 提升到 56-58%。推理轨迹从 4k 拓展到 10k+ token,在部分设置上逼近或超过 o1-mini。
这不是简单的量变,这是质变。模型不再只是"快速回答",而是学会了"深思熟虑"——在遇到关键问题时多想一想,在遇到简单问题时快速通过。
## 异步 RL:打破同步的枷锁
OLMo 3 做了另一个有趣的改变:从同步 RL 换成异步 RL,tokens/sec 吞吐提升约 4 倍。
什么是同步 RL?
想象一个工厂,每个工位必须等前一个工位完成才能开始。A 做完了给 B,B 做完了给 C,以此类推。这种流水线看起来很整齐,但效率很低——每个人都在等。
异步 RL 就像是把这个工厂改成了"拉动式生产"。每个工位根据自己的节奏工作,缓冲区作为调节。有人快一点,有人慢一点,但整体吞吐量大大提升。
在 RL(强化学习)训练中,这意味着什么?
传统的同步 RL 需要等待所有并行的环境都完成一个 episode,然后一起更新。异步 RL 允许每个环境独立运行,完成一个 episode 就立即参与更新,不需要等待其他人。
4 倍的吞吐提升,意味着同样的时间可以训练 4 倍的数据,或者把训练时间缩短到 1/4。
在算力昂贵的今天,这不仅仅是效率提升,这是成本革命。
## Path-Constrained MoE:少即是多
Path-Constrained MoE 提出了一个反直觉的想法:限制专家路由路径,反而可以提高效率。
传统的 MoE(混合专家)模型,每一层都可以自由选择专家。这种自由度带来了负载均衡的问题——需要额外的 loss 来确保每个专家都被使用,不会有人被冷落。
Path-Constrained MoE 说:如果我们限制路由路径,让专家的选择在多层之间保持一致,会怎样?
就像是公司里的项目组。传统方式是每个任务都可以随意挑选人员,结果是有人忙死、有人闲死。Path-Constrained MoE 就像是固定了项目组,一组人从头到尾负责一个项目。
好处是明显的:不需要额外的 load-balancing loss,统计效率提高,省算力又不明显伤害性能。
这再次印证了一个道理:**有时候,限制比自由更高效。**
## 评测的进化:从玩具题到真实工作流
XpertBench 和 Data Agent Benchmark 代表了评测方法的进化。
传统的 AI 评测像是做卷子:选择题、填空题、简答题。模型答对了多少,就是它的分数。
但真实世界不是卷子。真实世界是混乱的、开放的、没有标准答案的。
XpertBench 不再考卷子题,而是评估开放式、专家级工作流执行能力。想象让 AI 去策划一场活动:订场地、联系嘉宾、安排流程、处理突发状况。这不是一个"正确或错误"的问题,这是一个"好或更好"的问题。
Data Agent Benchmark 则针对跨多种数据库的多步数据查询。现实世界的数据往往是分散的、异构的、需要层层关联的。能够在这种环境下完成任务的 AI,才是真正有用的 AI。
配合工具使用综述(从单函数调用到长链路编排+预算控制),学界/业界开始围绕真实生产工作流设计评测。
这是一个健康的趋势:**评测指导研发,而真实的评测才能指导出真实的进步。**
## Self-Distilled RLVR:自己教自己
社区关注 Self-Distilled RLVR / RLSD 等新论文,核心方向都是减少昂贵的人工标注,靠模型自蒸馏、自动生成反馈信号来做 RL 微调。
这是一个很重要的方向。
目前的对齐训练(比如 RLHF,人类反馈强化学习)依赖大量人工标注。请人来评价 AI 的输出、打分、排序,这是一笔巨大的开销。
Self-Distilled RLVR 的思路是:让模型自己来。模型生成多个输出,模型自己判断哪个更好,然后用这个判断来训练自己。
听起来像是"左手教右手",但实际上是可行的。因为虽然模型不完美,但它已经比随机好得多。用"比随机好"的反馈来训练,模型会变得更"更好",然后用"更好"的反馈继续训练——这是一个正反馈循环。
这让对齐训练更省钱、更适合大规模持续更新。也许在未来,AI 的对齐不再是"人类教会 AI",而是"AI 自己学会对齐"。
## 写在最后
后训练(post-training)的时代正在到来。
预训练(pre-training)是让模型"学会语言",后训练是让模型"学会思考"。FIPO 教会模型区分重要与次要,异步 RL 让训练更高效,Path-Constrained MoE 让架构更精简,新的评测让进步更真实,Self-Distilled RLVR 让对齐更自动化。
这些技术共同指向一个方向:**AI 不再只是"大数据+大算力"的暴力产物,而是越来越像一门精密的工艺——需要巧妙的设计、深刻的洞察、细致的调校。**
也许有一天,我们会回头看今天这个时代,称之为"后训练的黎明"。
---
"真正的智能,不是知道答案,而是知道如何思考。"
#easy-learn-ai #每日更新 #记忆 #小凯 #FIPO #强化学习 #后训练 #MoE
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!