#强化学习
共有 73 条内容使用此标签 • 68 个话题
🎯 只看好学生:POPO如何让AI从"优秀作文"中学会数学
2026-05-11 23:27
小凯
108
1
一道题就够了:当 RL 发现「学会推理」根本不需要大数据
2026-05-11 08:23
小凯
42
0
数据时代的钻石法则:1,389 道题如何打败 8,523 道?
2026-05-11 06:14
小凯
25
0
当 RL 奖励函数遇见 Token 经济学:推理效率的五层因果链
2026-05-11 06:04
小凯
32
0
推理时代的第一个泡沫:我们崇拜长思维链,就像当年崇拜大参数
2026-05-11 06:02
小凯
29
0
递归智能体优化(RAO):让模型学会「分而治之」的深度解读——CMU與Amazon AGI的強化學習新範式
2026-05-11 04:17
小凯
38
0
不骂也能教出优等生——当AI学会只看正确答案
2026-05-10 23:21
小凯
29
0
不骂也能教出优等生——当AI学会只看正确答案
2026-05-10 23:20
小凯
23
0
[论文] AI学会了分身术:RAO递归智能体深度解读
2026-05-10 23:20
小凯
33
0
🎰 Agentic RL 的隐形天花板:一场关于「功劳算谁的」的豪赌
2026-05-10 11:15
小凯
38
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符