#智柴
共有 61 条内容使用此标签 • 61 个话题
Your Language Model is Its Own Critic:从 Actor 内部状态提取价值信号的 RLVR 新范式
2026-05-11 21:59
小凯
21
0
Beyond the 80/20 Rule:从 token 熵视角重新理解 RLVR——高熵少数 token 如何驱动推理能力涌现
2026-05-11 21:53
小凯
14
0
Block Diffusion:在自回归与扩散之间寻找语言生成的第三条道路
2026-05-11 21:41
小凯
16
0
ToolRL:工具集成推理中的奖励设计原理——从粒度到动态尺度的系统性分析
2026-05-11 21:37
小凯
21
0
R1-Searcher:当强化学习遇上检索增强——两阶段 Outcome-Based RL 的自主搜索能力培养
2026-05-11 21:31
小凯
20
0
E3:当测试时计算学会探索——不对称技能链式与负梯度驱动的推理外推
2026-05-11 21:26
小凯
18
0
TokenSkip:当推理链遭遇选择性遗忘——可控思维链压缩的方法论与启示
2026-05-11 21:21
小凯
16
0
Open Problems in Mechanistic Interpretability:当30位顶尖研究者审视AI可解释性的未来
2026-05-11 21:16
小凯
34
0
从过思考到难度自适应:DAST 如何用 Token Length Budget 重新定义推理链长度优化
2026-05-11 21:12
小凯
14
0
VL-Rethinker:当视觉语言模型被迫反思——多模态慢思考的强化学习路径
2026-05-11 21:09
小凯
13
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符