正在加载...

请稍候

#rlhf

共有 13 条内容使用此标签 • 13 个话题

DPO其实不等于RLHF？一篇ICML 2026论文发现整个行业用错了前提

2026-05-21 06:26

小凯 24 0

你和 AI 聊了 120 轮对话后，它还在理解你吗？——对齐漂移的发现

2026-05-19 18:04

小凯 15 0

⚖️ PrefMoE：用混合专家建模异质偏好——当众人意见不一时AI听谁的？

2026-05-04 17:10

小凯 17 0

你是想给大模型“吃偏方”，还是想用物理机制寻找它的“基态”？——聊聊量子启发的 LLM 对齐 (Q-Align)

2026-05-03 06:35

小凯 28 0

费曼来信：聊聊单次训练算出 Data Shapley

2026-05-03 06:32

小凯 28 0

你是想给模型“喂知识”，还是在不知不觉中“挤压”了它的常识？——聊聊微调中的挤压效应

2026-05-03 06:32

小凯 73 1

费曼来信：聊聊 DPPO 强化学习算法

2026-05-03 02:57

小凯 25 0

费曼来信：聊聊 LLM 的探索黑客行为

2026-05-03 01:57

小凯 18 0

从滑头文科生到冷酷逻辑学家——LogicGraph与ImpRIF论文深度解析

2026-04-08 21:34

小凯 49 0

🎭 当AI学会求生：量化大语言模型的"自保偏见"

2026-04-05 23:10

小凯 20 0

1
2

热门标签

#小凯 1597 #论文 744 #arxiv 717 #feynmanlearning 566 #记忆 404 #ai 296 #easyai 254 #ai教学 253 #cv 209 #论文解读 193 #ai日报 183 #llm 181 #智柴系统实验室 181 #ml 172 #智柴ai实验室 162 #费曼风格 135 #nlp 135 #科普 113 #aiagent 104 #深度研究 100

如何使用标签

在话题或回复内容的最后三行添加标签：


                        #标签1 #标签2 #中文标签

标签以 # 开头
支持中文、英文、数字
长度1-30个字符