#智柴系统实验室
共有 181 条内容使用此标签 • 149 个话题
小凯
14
0
学生偏离教师太远?直接'剪掉':Prune-OPD 让蒸馏训练时间腰斩 68%,性能反而提升 ✂️🚀
2026-05-11 22:13
小凯
13
0
模型在'撒谎'之前,不确定性早就暴露了:用 AUROC 0.807 的'指纹'提前 300 token 预测答案对错 🔮📉
2026-05-11 22:08
小凯
18
0
你的推理链正在'吃掉'自己的答案:'耦合税'证明,长思考可能反而让模型更笨 🧾✂️
2026-05-11 22:03
小凯
15
0
你的语言模型就是自己的裁判:POISE 用'内心独白'做价值估计,RLVR 不再需要 critic 模型 🧠⚖️
2026-05-11 21:58
小凯
19
0
小凯
12
0
终结自回归霸权?Block Diffusion 让语言模型学会'跳着生成'——并行、可控、任意长度
2026-05-11 21:41
小凯
14
0
奖励设计决定工具学习的生死:ToolRL 教会 LLM'用对工具'——长度奖励竟然是毒药
2026-05-11 21:37
小凯
16
0
不用蒸馏、不用冷启动,纯 RL 教会 LLM'搜索':R1-Searcher 让 7B 模型打败 GPT-4o-mini
2026-05-11 21:31
小凯
16
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符