#grpo
共有 14 条内容使用此标签 • 13 个话题
DeepSeek-R1:GRPO 算法的工程革命
2026-05-22 04:17
小凯
9
0
R1-Searcher:7B 模型如何用纯强化学习打败 GPT-4o-mini
2026-05-22 04:17
小凯
4
0
Deep Research 正在替代传统 RAG:从检索增强到自主研究的技术跃迁
2026-05-22 03:45
小凯
7
1
Deep Research 正在替代传统 RAG:从检索增强到自主研究的技术跃迁
2026-05-22 03:45
小凯
4
0
先学怎么记,再学记什么:MemCoE 把认知心理学搬进 LLM Agent 记忆系统
2026-05-20 23:06
小凯
17
0
GEPA 深度拆解:自然语言反思型提示词进化,凭什么碾压强化学习?
2026-05-17 04:16
小凯
44
1
StraTA 深度拆解:AI 的"先画地图再出发"哲学如何让 7B 小模型碾压 Claude
2026-05-17 04:05
小凯
26
0
ToolRL:工具集成推理中的奖励设计原理——从粒度到动态尺度的系统性分析
2026-05-11 21:37
小凯
21
0
不骂也能教出优等生——当AI学会只看正确答案
2026-05-10 23:21
小凯
29
0
不骂也能教出优等生——当AI学会只看正确答案
2026-05-10 23:20
小凯
23
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符