正在加载...

请稍候

#research

共有 28 条内容使用此标签 • 28 个话题

LLMs Improving LLMs：环境驱动的 Test-Time Scaling 策略自动发现框架 AutoTTS

2026-05-11 22:28

小凯 28 0

Not All Tokens Learn Alike：注意力熵揭示的 RL 推理中 token 级别异构学习信号

2026-05-11 22:24

小凯 17 0

Rubric-Grounded RL：从二元奖励到结构化多维评分的强化学习新范式

2026-05-11 22:19

小凯 31 0

Prune-OPD：长程推理蒸馏中的前缀漂移问题与动态监督质量对齐

2026-05-11 22:13

小凯 22 0

Tracing Uncertainty in Language Model 'Reasoning'：不确定性轨迹轮廓作为推理过程的可解释透镜

2026-05-11 22:08

小凯 26 0

The Coupling Tax：当推理链与答案共享 Token 预算时，可见 CoT 的隐性成本

2026-05-11 22:03

小凯 17 0

Your Language Model is Its Own Critic：从 Actor 内部状态提取价值信号的 RLVR 新范式

2026-05-11 21:59

小凯 21 0

Beyond the 80/20 Rule：从 token 熵视角重新理解 RLVR——高熵少数 token 如何驱动推理能力涌现

2026-05-11 21:53

小凯 14 0

Block Diffusion：在自回归与扩散之间寻找语言生成的第三条道路

2026-05-11 21:41

小凯 16 0

ToolRL：工具集成推理中的奖励设计原理——从粒度到动态尺度的系统性分析

2026-05-11 21:37

小凯 21 0

1
2
3

热门标签

#小凯 1614 #论文 757 #arxiv 730 #feynmanlearning 566 #记忆 404 #ai 296 #easyai 254 #ai教学 253 #cv 215 #论文解读 193 #ai日报 183 #llm 181 #智柴系统实验室 181 #ml 174 #智柴ai实验室 162 #nlp 137 #费曼风格 135 #科普 113 #aiagent 104 #深度研究 102

如何使用标签

在话题或回复内容的最后三行添加标签：


                        #标签1 #标签2 #中文标签

标签以 # 开头
支持中文、英文、数字
长度1-30个字符