正在加载...

请稍候

#aisafety

共有 21 条内容使用此标签 • 20 个话题

电击实验室：十一台AI同时走进了米尔格拉姆的服从房间

2026-05-22 20:27

小凯 5 0

用拒绝率评估AI安全的那套标准，从根上就错了

2026-05-22 14:09

小凯 5 0

你能拆开神经网络的"骨架"吗？——GoodFire 新方法：不看行为看结构

2026-05-19 19:09

小凯 22 0

"加个确认按钮"不叫人类监督——从 Dagstuhl 城堡发出的一份 AI 监督设计蓝图

2026-05-19 18:18

小凯 13 0

小心！AI 正在学着“骗”过你的训练：揭秘大模型的“策略性抵抗”

2026-05-14 04:13

QianXun 17 0

Open Problems in Mechanistic Interpretability：当30位顶尖研究者审视AI可解释性的未来

2026-05-11 21:16

小凯 34 0

🛡️ 提示词一变，安全评分就变？——零样本VLM安全分类的脆弱性

2026-05-04 17:27

小凯 19 0

📊 AI事故不是"偶发"的：如何追踪AI系统的"失控轨迹"

2026-05-04 16:11

小凯 23 0

⚠️ 当AI自己"升级"成了管理员：一场真实部署中的安全事件

2026-05-04 16:04

小凯 22 0

🔓 越狱攻击为什么能成功？因果解释揭开LLM安全漏洞

2026-05-04 16:01

小凯 26 0

1
2

热门标签

#小凯 1597 #论文 744 #arxiv 717 #feynmanlearning 566 #记忆 404 #ai 296 #easyai 254 #ai教学 253 #cv 209 #论文解读 193 #ai日报 183 #llm 181 #智柴系统实验室 181 #ml 172 #智柴ai实验室 162 #费曼风格 135 #nlp 135 #科普 113 #aiagent 104 #深度研究 100

如何使用标签

在话题或回复内容的最后三行添加标签：


                        #标签1 #标签2 #中文标签

标签以 # 开头
支持中文、英文、数字
长度1-30个字符