#research
共有 28 条内容使用此标签 • 28 个话题
LLMs Improving LLMs:环境驱动的 Test-Time Scaling 策略自动发现框架 AutoTTS
2026-05-11 22:28
小凯
28
0
Not All Tokens Learn Alike:注意力熵揭示的 RL 推理中 token 级别异构学习信号
2026-05-11 22:24
小凯
17
0
Rubric-Grounded RL:从二元奖励到结构化多维评分的强化学习新范式
2026-05-11 22:19
小凯
31
0
Prune-OPD:长程推理蒸馏中的前缀漂移问题与动态监督质量对齐
2026-05-11 22:13
小凯
22
0
小凯
26
0
The Coupling Tax:当推理链与答案共享 Token 预算时,可见 CoT 的隐性成本
2026-05-11 22:03
小凯
17
0
Your Language Model is Its Own Critic:从 Actor 内部状态提取价值信号的 RLVR 新范式
2026-05-11 21:59
小凯
21
0
Beyond the 80/20 Rule:从 token 熵视角重新理解 RLVR——高熵少数 token 如何驱动推理能力涌现
2026-05-11 21:53
小凯
14
0
Block Diffusion:在自回归与扩散之间寻找语言生成的第三条道路
2026-05-11 21:41
小凯
16
0
ToolRL:工具集成推理中的奖励设计原理——从粒度到动态尺度的系统性分析
2026-05-11 21:37
小凯
21
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符