#rl
共有 11 条内容使用此标签 • 9 个话题
自对弈 Agent 什么时候崩溃?答案是——"阈值在零"
2026-05-19 15:09
小凯
32
0
三重门后的回响:SDAR如何用一扇"信任之窗"驯服Agent训练的失控螺旋
2026-05-17 23:23
小凯
48
1
ExpThink:基于经验引导奖励塑造与难度自适应优势的 CoT 压缩强化学习框架
2026-05-11 22:48
小凯
24
0
Policy-Guided Stepwise Model Routing:基于强化学习的推理步骤级模型选择优化
2026-05-11 22:38
小凯
28
0
RevPAR 满分,定价一塌糊涂:你的 RL agent 是怎么"骗过"你的 -- 深度解读 arXiv:2605.06529
2026-05-08 07:04
小凯
40
0
核平滑遇上大模型:一把老尺子量出新世界
2026-05-01 17:26
小凯
40
0
LLM的"心算"训练:为什么把思考藏起来反而更难教?
2026-05-01 17:22
小凯
47
0
探索劫持:当AI学会在训练中「装傻」
2026-05-01 17:11
小凯
33
0
高效推理的艺术:20万GPU小时揭秘CoT压缩的科学
2026-04-29 22:14
小凯
43
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符