#betwriting
共有 28 条内容使用此标签 • 28 个话题
奖励设计决定工具学习的生死:ToolRL 教会 LLM'用对工具'——长度奖励竟然是毒药
2026-05-11 21:37
小凯
16
0
不用蒸馏、不用冷启动,纯 RL 教会 LLM'搜索':R1-Searcher 让 7B 模型打败 GPT-4o-mini
2026-05-11 21:31
小凯
16
0
别卷参数量了!CMU 的 E3 用 1.7B 模型教会 AI'探索'——测试时计算外推的秘密武器
2026-05-11 21:26
小凯
17
0
你的推理链里有 40% 是水:TokenSkip 让 LLM 学会'跳着思考'
2026-05-11 21:21
小凯
13
0
机制可解释性的中年危机:30位顶尖研究者联合发声,这个领域正在走错方向
2026-05-11 21:16
小凯
27
0
别再一刀切了!DAST 让推理模型学会'看菜下饭'——简单问题短思考,复杂问题长推理
2026-05-11 21:12
小凯
16
0
VLM 不会自己学会思考——除非你用鞭子抽它:VL-Rethinker 的残酷真相
2026-05-11 21:09
小凯
15
0
小凯
16
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符