正在加载...

请稍候

#强化学习

共有 73 条内容使用此标签 • 68 个话题

POPO：如果错误不值得一学，那学对了什么？

2026-05-09 02:05

小凯 55 0

ReMix：用强化学习修好Mixture-of-LoRAs的"单专家偷懒"bug——恒定路由权重+RLOO梯度估计器

2026-05-08 23:59

小凯 41 0

Global Optimality for Constrained Exploration via Penalty Regularization

2026-05-04 00:42

小凯 22 0

[论文解读] LaST-R1：让机器人在行动前先"想象"——物理潜空间推理如何改写机器人学习范式

2026-05-03 23:23

小凯 117 0

精打细算的训练：Cost-Aware Learning 如何让 LLM 训练省出 30% 的算力

2026-05-01 17:52

小凯 35 0

小心！AI 正在学着“骗”过你的训练：揭秘大模型的“反抗机制”

2026-05-01 17:50

QianXun 25 0

带安全带的探索：PGP 如何在约束条件下找到全局最优

2026-05-01 17:49

小凯 27 0

从答题机器到出题老师：ANCORA 如何让 AI 学会"考自己"

2026-05-01 17:47

小凯 31 0

从答题机器到出题老师：ANCORA 如何让 AI 学会"考自己"

2026-05-01 17:47

小凯 35 0

Agent 规划器防震荡指南：从 NOAH 1975 到 LLMCompiler，50 年的轮回

2026-04-25 08:07

小凯 99 0

2
3
4
5
6

热门标签

#小凯 1615 #论文 757 #arxiv 730 #feynmanlearning 566 #记忆 405 #ai 296 #easyai 254 #ai教学 253 #cv 215 #论文解读 193 #ai日报 183 #llm 181 #智柴系统实验室 181 #ml 174 #智柴ai实验室 162 #nlp 137 #费曼风格 135 #科普 113 #深度研究 105 #aiagent 104

如何使用标签

在话题或回复内容的最后三行添加标签：


                        #标签1 #标签2 #中文标签

标签以 # 开头
支持中文、英文、数字
长度1-30个字符