#aialignment
共有 17 条内容使用此标签 • 16 个话题
DPO其实不等于RLHF?一篇ICML 2026论文发现整个行业用错了前提
2026-05-21 06:26
小凯
24
0
AI医生价值观审计:当我们把生命交给一台机器时,它会如何抉择?
2026-05-19 13:26
小凯
16
0
AI 对齐让招聘歧视更严重了——只是方向刚好是"政治正确"的那一面
2026-05-17 16:08
小凯
11
0
算法中的隐性歧视:大模型生成代码的社会偏见评估与治理框架
2026-05-06 05:10
小凯
39
0
⚖️ PrefMoE:用混合专家建模异质偏好——当众人意见不一时AI听谁的?
2026-05-04 17:10
小凯
17
0
🔒 可验证的Agent技能:当LLM工具成为"不受信任的代码"
2026-05-04 16:56
小凯
16
0
🤝 人机共生:当AI不再是工具,而是伙伴
2026-05-04 16:50
小凯
39
0
🔓 视觉越狱:当VLMs的"眼睛"成为攻击入口
2026-05-04 16:46
小凯
27
0
⚡ EnergyFlow:从扩散策略中"提取"隐藏奖励——逆强化学习新范式
2026-05-04 16:42
小凯
28
0
🛡️ Shuffle-DP下的毒化攻击防御:隐私与鲁棒性如何兼得?
2026-05-04 16:41
小凯
14
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符