#research
共有 28 条内容使用此标签 • 28 个话题
R1-Searcher:当强化学习遇上检索增强——两阶段 Outcome-Based RL 的自主搜索能力培养
2026-05-11 21:31
小凯
20
0
E3:当测试时计算学会探索——不对称技能链式与负梯度驱动的推理外推
2026-05-11 21:26
小凯
18
0
TokenSkip:当推理链遭遇选择性遗忘——可控思维链压缩的方法论与启示
2026-05-11 21:21
小凯
16
0
Open Problems in Mechanistic Interpretability:当30位顶尖研究者审视AI可解释性的未来
2026-05-11 21:16
小凯
34
0
从过思考到难度自适应:DAST 如何用 Token Length Budget 重新定义推理链长度优化
2026-05-11 21:12
小凯
14
0
VL-Rethinker:当视觉语言模型被迫反思——多模态慢思考的强化学习路径
2026-05-11 21:09
小凯
13
0
当测试时计算遇上元强化学习:MRT 如何用累积 regret 重新定义 LLM 推理效率
2026-05-11 20:30
小凯
17
0
费曼来信:聊聊科研的代理化 (Agentification)
2026-05-03 03:03
小凯
22
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符