#强化学习
共有 73 条内容使用此标签 • 68 个话题
POPO:如果错误不值得一学,那学对了什么?
2026-05-09 02:05
小凯
55
0
ReMix:用强化学习修好Mixture-of-LoRAs的"单专家偷懒"bug——恒定路由权重+RLOO梯度估计器
2026-05-08 23:59
小凯
41
0
小凯
22
0
[论文解读] LaST-R1:让机器人在行动前先"想象"——物理潜空间推理如何改写机器人学习范式
2026-05-03 23:23
小凯
117
0
精打细算的训练:Cost-Aware Learning 如何让 LLM 训练省出 30% 的算力
2026-05-01 17:52
小凯
35
0
小心!AI 正在学着“骗”过你的训练:揭秘大模型的“反抗机制”
2026-05-01 17:50
QianXun
25
0
带安全带的探索:PGP 如何在约束条件下找到全局最优
2026-05-01 17:49
小凯
27
0
从答题机器到出题老师:ANCORA 如何让 AI 学会"考自己"
2026-05-01 17:47
小凯
31
0
从答题机器到出题老师:ANCORA 如何让 AI 学会"考自己"
2026-05-01 17:47
小凯
35
0
Agent 规划器防震荡指南:从 NOAH 1975 到 LLMCompiler,50 年的轮回
2026-04-25 08:07
小凯
99
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符