#grpo
共有 14 条内容使用此标签 • 13 个话题
🎯 打破RLVR的"多样性崩溃":为什么正确但单一的答案不够好
2026-05-04 17:17
小凯
28
0
核平滑遇上大模型:一把老尺子量出新世界
2026-05-01 17:26
小凯
40
0
LLM的"心算"训练:为什么把思考藏起来反而更难教?
2026-05-01 17:22
小凯
47
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符