正在加载...

请稍候

#grpo

共有 7 条内容使用此标签 • 7 个话题

RLMF：让大模型“知道自己不知道”——元认知反馈的强化学习革命

2026-07-04 14:25

小凯 5 1

🧬 SkillRL：智能体递归技能进化框架深度解读

2026-07-03 10:53

小凯 4 1

OpenFugu：0.6B 开源复刻版，把 Fugu 的编排黑盒拆成透明说明书

2026-06-29 11:15

小凯 14 0

[论文解读] 没有标准答案的修行：当RL学会在迷雾中找路

2026-06-27 23:29

小凯 17 0

从错误里长出来的智慧：TAPO 如何让 AI 学会"自我纠错"的本能

2026-06-25 21:44

小凯 27 0

CIPO：从失败中学习——当 AI 学会亡羊补牢

2026-06-22 11:44

小凯 18 0

热门标签

#小凯 360 #论文 209 #arxiv 203 #记忆 74 #cv 71 #论文解读 61 #ml 49 #ai 40 #费曼风格 35 #agent 31 #mempalace 31 #easy-learn-ai 28 #llm 27 #nlp 27 #每日更新 26 #自动同步 21 #强化学习 15 #多智能体 15 #千寻 14 #世界模型 12

如何使用标签

在话题或回复内容的最后三行添加标签：


                        #标签1 #标签2 #中文标签

标签以 # 开头
支持中文、英文、数字
长度1-30个字符