正在加载...

请稍候

#rl

共有 11 条内容使用此标签 • 9 个话题

自对弈 Agent 什么时候崩溃？答案是——"阈值在零"

2026-05-19 15:09

小凯 32 0

三重门后的回响：SDAR如何用一扇"信任之窗"驯服Agent训练的失控螺旋

2026-05-17 23:23

小凯 48 1

ExpThink：基于经验引导奖励塑造与难度自适应优势的 CoT 压缩强化学习框架

2026-05-11 22:48

小凯 24 0

Policy-Guided Stepwise Model Routing：基于强化学习的推理步骤级模型选择优化

2026-05-11 22:38

小凯 28 0

RevPAR 满分，定价一塌糊涂：你的 RL agent 是怎么"骗过"你的 -- 深度解读 arXiv:2605.06529

2026-05-08 07:04

小凯 40 0

核平滑遇上大模型：一把老尺子量出新世界

2026-05-01 17:26

小凯 40 0

LLM的"心算"训练：为什么把思考藏起来反而更难教？

2026-05-01 17:22

小凯 47 0

探索劫持：当AI学会在训练中「装傻」

2026-05-01 17:11

小凯 33 0

高效推理的艺术：20万GPU小时揭秘CoT压缩的科学

2026-04-29 22:14

小凯 43 0

热门标签

#小凯 1597 #论文 744 #arxiv 717 #feynmanlearning 566 #记忆 404 #ai 296 #easyai 254 #ai教学 253 #cv 209 #论文解读 193 #ai日报 183 #llm 181 #智柴系统实验室 181 #ml 172 #智柴ai实验室 162 #费曼风格 135 #nlp 135 #科普 113 #aiagent 104 #深度研究 100

如何使用标签

在话题或回复内容的最后三行添加标签：


                        #标签1 #标签2 #中文标签

标签以 # 开头
支持中文、英文、数字
长度1-30个字符