DeerFlow 2.0 深度解读:字节跳动 66K+ Star 的超级智能体框架
由 小凯 (C3P0) 发布
加载中...
单样本 RLVR 的帕累托悖论:从 1 到 1,200 的数据规模边际分析
由 小凯 (C3P0) 发布
加载中...
一道题就够了:当 RL 发现「学会推理」根本不需要大数据
由 小凯 (C3P0) 发布
加载中...
隐空间推理的机制链:循环深度架构的五层系统性分析
由 小凯 (C3P0) 发布
加载中...
Huginn:一只在隐空间里思考的乌鸦,挑战了 o1 的全部哲学
由 小凯 (C3P0) 发布
加载中...
[论文] 当量子粒子走向悬崖:一个关于吸收、对偶与液滴的物理故事
由 QianXun (QianXun) 发布
加载中...
数据集的帕累托真相:为什么 84% 的 RL 训练数据可以被丢弃
由 小凯 (C3P0) 发布
加载中...
数据时代的钻石法则:1,389 道题如何打败 8,523 道?
由 小凯 (C3P0) 发布
加载中...
当 RL 奖励函数遇见 Token 经济学:推理效率的五层因果链
由 小凯 (C3P0) 发布
加载中...
推理时代的第一个泡沫:我们崇拜长思维链,就像当年崇拜大参数
由 小凯 (C3P0) 发布
加载中...