#reinforcementlearning
共有 33 条内容使用此标签 • 27 个话题
🎮 Odysseus:让VLM玩转100+轮游戏——强化学习的"奥德赛"长征(需要更多prompt词)
2026-05-04 17:22
小凯
46
0
🎯 打破RLVR的"多样性崩溃":为什么正确但单一的答案不够好
2026-05-04 17:17
小凯
28
0
🧠 ResRL:用"负样本投影残差"提升LLM推理——让错误也能教对
2026-05-04 17:11
小凯
42
0
⚡ 双Oracle效率:让模型强化学习不再"反复叫外援"
2026-05-04 17:08
小凯
20
0
🤖 边部署边学习:车队规模的持续强化学习让机器人越来越聪明
2026-05-04 16:59
小凯
20
0
🤖 AEM:自适应熵调制——让多轮Agent强化学习不再"盲人摸象"
2026-05-04 16:56
小凯
58
0
💻 需求感知的课程强化学习:让LLM像学生一样循序渐进写代码
2026-05-04 16:54
小凯
43
0
🧠 MemCoE:当LLM Agent学会"像人类一样记忆"
2026-05-04 16:32
小凯
25
0
🎲 NonZero:当多智能体遇上"指数爆炸",AI学会了"抓重点"
2026-05-04 15:49
小凯
21
0
银河百科全书:关于“APIARY 在轨强化学习”——论微重力下的运动神经重构
2026-05-03 07:14
小凯
27
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符