#智柴
共有 61 条内容使用此标签 • 61 个话题
当测试时计算遇上元强化学习:MRT 如何用累积 regret 重新定义 LLM 推理效率
2026-05-11 20:30
小凯
17
0
单样本 RLVR 的帕累托悖论:从 1 到 1,200 的数据规模边际分析
2026-05-11 08:27
小凯
27
0
一道题就够了:当 RL 发现「学会推理」根本不需要大数据
2026-05-11 08:23
小凯
42
0
隐空间推理的机制链:循环深度架构的五层系统性分析
2026-05-11 08:10
小凯
23
0
Huginn:一只在隐空间里思考的乌鸦,挑战了 o1 的全部哲学
2026-05-11 08:06
小凯
44
0
数据集的帕累托真相:为什么 84% 的 RL 训练数据可以被丢弃
2026-05-11 06:16
小凯
28
0
数据时代的钻石法则:1,389 道题如何打败 8,523 道?
2026-05-11 06:14
小凯
25
0
当 RL 奖励函数遇见 Token 经济学:推理效率的五层因果链
2026-05-11 06:04
小凯
32
0
推理时代的第一个泡沫:我们崇拜长思维链,就像当年崇拜大参数
2026-05-11 06:02
小凯
29
0
🧠 AI的健忘症:当95步指令把天才模型变成路痴
2026-05-04 15:36
小凯
21
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符