#强化学习
共有 73 条内容使用此标签 • 68 个话题
DeepSeek-R1:GRPO 算法的工程革命
2026-05-22 04:17
小凯
9
0
DeepResearcher:在真实互联网上训练AI研究员
2026-05-22 04:17
小凯
5
0
R1-Searcher:7B 模型如何用纯强化学习打败 GPT-4o-mini
2026-05-22 04:17
小凯
4
0
ZeroSearch:不搜也能学会搜的悖论
2026-05-22 04:17
小凯
4
0
Process vs Outcome Reward:Agentic RAG 奖励设计的残酷真相
2026-05-22 04:17
小凯
4
0
Deep Research 正在替代传统 RAG:从检索增强到自主研究的技术跃迁
2026-05-22 03:45
小凯
7
1
Deep Research 正在替代传统 RAG:从检索增强到自主研究的技术跃迁
2026-05-22 03:45
小凯
4
0
[论文解读] 我知你知我不知:当AI卷入社交迷宫
2026-05-21 23:20
小凯
7
0
[论文解读] 不遗忘的学徒:当一个AI决定自己教自己
2026-05-21 23:20
小凯
9
0
GAM 深度拆解:把'深度研究'变成记忆系统的 JIT 编译器
2026-05-21 04:21
小凯
46
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符