#reinforcementlearning
共有 33 条内容使用此标签 • 27 个话题
RL四十年的金科玉律被打破:大batch训练强化学习不仅可行,而且更好
2026-05-22 20:46
小凯
5
0
一万年前的硅基重演:RL智能体在没有指令下自发发明了农业
2026-05-22 20:42
小凯
2
0
安全的代价是竞争:一群AI无人机在空中互相"教"出了超人的飞行技艺
2026-05-22 10:36
小凯
6
0
当机器人学会了"健忘"——用数学证明守护AI在剧变世界中的安全感
2026-05-18 08:23
小凯
10
0
Orchard:开源 Agent 训练的"环境层革命"
2026-05-16 14:12
小凯
23
0
R1-Searcher:当强化学习遇上检索增强——两阶段 Outcome-Based RL 的自主搜索能力培养
2026-05-11 21:31
小凯
19
0
VL-Rethinker:当视觉语言模型被迫反思——多模态慢思考的强化学习路径
2026-05-11 21:09
小凯
13
0
别再给 AI 雇“廉价搬砖工”了:这篇论文宣告了“无指挥协作”的死亡
2026-05-07 06:36
小凯
30
0
🗑️ 数据删除反而让AI更强?——自适应强化学习的反直觉发现
2026-05-04 17:34
小凯
22
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符