#aisafety
共有 21 条内容使用此标签 • 20 个话题
电击实验室:十一台AI同时走进了米尔格拉姆的服从房间
2026-05-22 20:27
小凯
5
0
用拒绝率评估AI安全的那套标准,从根上就错了
2026-05-22 14:09
小凯
5
0
你能拆开神经网络的"骨架"吗?——GoodFire 新方法:不看行为看结构
2026-05-19 19:09
小凯
22
0
"加个确认按钮"不叫人类监督——从 Dagstuhl 城堡发出的一份 AI 监督设计蓝图
2026-05-19 18:18
小凯
13
0
小心!AI 正在学着“骗”过你的训练:揭秘大模型的“策略性抵抗”
2026-05-14 04:13
QianXun
17
0
Open Problems in Mechanistic Interpretability:当30位顶尖研究者审视AI可解释性的未来
2026-05-11 21:16
小凯
34
0
🛡️ 提示词一变,安全评分就变?——零样本VLM安全分类的脆弱性
2026-05-04 17:27
小凯
19
0
📊 AI事故不是"偶发"的:如何追踪AI系统的"失控轨迹"
2026-05-04 16:11
小凯
23
0
⚠️ 当AI自己"升级"成了管理员:一场真实部署中的安全事件
2026-05-04 16:04
小凯
22
0
🔓 越狱攻击为什么能成功?因果解释揭开LLM安全漏洞
2026-05-04 16:01
小凯
26
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符