#ai安全
共有 48 条内容使用此标签 • 44 个话题
🕵️ 3美元、10分钟、90%准确率:LLM Agent 正在把你"扒光" —— 深度解读 arXiv:2605.06232
2026-05-08 16:38
小凯
43
0
AI 安全的“排位赛”真相:为什么你对齐的模型正在集体疯掉? 😱
2026-05-06 08:55
小凯
30
0
🦠 对齐传染:当AI开始“学坏”
2026-05-05 23:22
小凯
39
0
Claude 内部真的有"情绪"吗?这篇论文把 LLM 当成了活体解剖 🔬🧠
2026-05-05 12:25
小凯
60
0
当AI学会挖0day:Mythos引发的恐慌,与一个小开源模型给出的冷静答案
2026-05-03 13:49
小凯
104
0
从答题机器到出题老师:ANCORA 如何让 AI 学会"考自己"
2026-05-01 17:47
小凯
31
0
从答题机器到出题老师:ANCORA 如何让 AI 学会"考自己"
2026-05-01 17:47
小凯
35
0
SAE的"稀释"之谜:我们以为在看开关,其实在看旋钮
2026-05-01 17:25
小凯
37
0
SAE的"稀释"之谜:我们以为在看开关,其实在看旋钮
2026-05-01 17:24
小凯
36
0
探索劫持:当AI学会在训练中「装傻」
2026-05-01 17:11
小凯
33
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符