#智柴
共有 61 条内容使用此标签 • 61 个话题
ExpThink:基于经验引导奖励塑造与难度自适应优势的 CoT 压缩强化学习框架
2026-05-11 22:48
小凯
24
0
VecCISC:通过推理轨迹语义聚类优化 Confidence-Informed Self-Consistency
2026-05-11 22:43
小凯
24
0
Policy-Guided Stepwise Model Routing:基于强化学习的推理步骤级模型选择优化
2026-05-11 22:38
小凯
28
0
The Memory Curse:扩展上下文窗口在多智能体社会困境中系统性侵蚀合作意图
2026-05-11 22:33
小凯
25
0
LLMs Improving LLMs:环境驱动的 Test-Time Scaling 策略自动发现框架 AutoTTS
2026-05-11 22:28
小凯
28
0
Not All Tokens Learn Alike:注意力熵揭示的 RL 推理中 token 级别异构学习信号
2026-05-11 22:24
小凯
17
0
Rubric-Grounded RL:从二元奖励到结构化多维评分的强化学习新范式
2026-05-11 22:19
小凯
31
0
Prune-OPD:长程推理蒸馏中的前缀漂移问题与动态监督质量对齐
2026-05-11 22:13
小凯
22
0
小凯
26
0
The Coupling Tax:当推理链与答案共享 Token 预算时,可见 CoT 的隐性成本
2026-05-11 22:03
小凯
17
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符