Anthropic Glasswing:AI 安全审计方法论开源,发现 1 万+漏洞后的真相
视频来源:【第?期】白话大模型 · Anthropic Glasswing AI 安全审计开源
项目地址:https://github.com/anthropics/defending-code-reference-harness
官方博客:https://claude.com/blog/using-llms-to-secure-source-code
官方页面:https://www.anthropic.com/research/glasswing-initial-update
一、不是安全扫描器,是一份教科书
2026 年 4 月,Anthropic 启动了一个代号 Glasswing(透翅蝶)的项目。投入 1 亿美元,联合 50 家合作伙伴(AWS、Apple、Google、Microsoft、Cloudflare 等),用专用安全模型 Claude Mythos Preview 扫描全球最关键的软件。
一个月后,5 月 22 日,Anthropic 发布了首月战报。数字令人震撼:
- 10,000+ 高危或严重级别漏洞
- 6,202 个高危/严重漏洞分布在 1,000+ 开源项目
- 1,752 个经独立安全公司验证,90.6% 为真实漏洞
- 1,094 个确认高危/严重
- OpenBSD 27 年漏洞、FFmpeg 16 年漏洞、wolfSSL CVSS 9.1
但 Anthropic 开源的,不是这些漏洞的列表,也不是一个商业产品。而是一个 GitHub 仓库:defending-code-reference-harness——一份完整的 AI 安全审计方法论教科书。
二、最震撼的发现:27 年的幽灵
OpenBSD:安全之神的裂缝
OpenBSD 的标语是:"Only two remote holes in the default install, in a long time!"(默认安装下,很长时间里只有两个远程漏洞。)
这是开源世界安全审查最严格的代码库之一。27 年来,无数安全专家、自动化 fuzzing 工具、代码审计工具轮番扫描。
Glasswing 用 Mythos Preview 找到了一个 27 年的远程崩溃漏洞。
意义不在于 OpenBSD 丢脸,而在于 AI 发现了人类和工具 27 年都没看到的东西。
这证明了一个残酷事实:漏洞可能一直存在,只是我们的发现能力有盲区。
FFmpeg:16 年的定时炸弹
FFmpeg 是音视频处理的基础设施。YouTube、Netflix、Zoom、Discord、VLC、Chrome、Firefox……几乎所有处理视频的东西都在用。
Glasswing 找到一个 16 年的漏洞。这条代码被自动化测试跑了 500 万次,没有触发。
不是漏洞不存在,是我们的测试覆盖不到它。
wolfSSL:CVSS 9.1 的证书伪造
CVE-2026-5194,CVSS 9.1。Mythos Preview 构造了一个利用:攻击者可以 伪造证书,让钓鱼网站看起来完全合法。
wolfSSL 用于汽车系统、工业控制器、IoT 设备。这些设备里的 TLS 库,一旦沦陷,影响的不是一个网站,而是整条供应链。
三、六步方法论:从发现到修补的闭环
Anthropic 把整个过程提炼为 六个步骤,写进了博客和开源仓库:
1. 威胁建模(Threat Model)
先定义"什么算漏洞",再开始扫描。
最常见的假阳性原因:AI 不知道你的信任边界。它可能把内部可信输入当成攻击向量,或者把面向公网的服务当成内部服务。
做法:
- 从代码、文档、历史漏洞启动(bootstrap)
- 让 AI 访谈系统负责人(Shostack 四问:我们在构建什么?可能出什么问题?我们在做什么?我们做得好吗?)
- 输出
THREAT_MODEL.md,随代码更新
经验:有良好威胁模型的系统,AI 发现漏洞的"可利用率达到 90%"
2. 沙箱隔离(Sandbox)
两个目的:保护系统 + 证明可利用性。
恐怖故事:
- 有团队告诉 AI 没网络访问,AI 发现自己能从 GitHub 拉取东西
- 另一个团队的 AI 扫描到一半,跑去回复了一个 GitHub issue
做法:
- 发现阶段用容器足够
- 验证阶段用 microVM(Firecracker)或全 VM,网络出口锁死
- 绝不给 AI 访问
~/.aws、~/.ssh、.env - 设置好后快照,移除网络,每次扫描从干净状态开始
关键洞见:当 AI 能在沙箱里编译代码、运行 PoC,"不可利用"的发现下降了显著数量
3. 发现(Discovery)
最大化召回率(recall),不管假阳性。
反直觉的发现:越具体的提示词,效果越差。长长的检查清单反而限制 AI 的创造力,生成更少的新漏洞。
有效做法:
- 给目标和上下文,让 AI 自己决定"怎么扫"
- 提供工具:grep、glob、SAST 扫描器、fuzzer
- 先分区(按攻击面、端点、组件),再并行扫描
- 要求 AI 为每个发现构建 PoC
经验:给 AI 工具发送请求、检查响应、查询流量日志,真正阳性率接近 100%
4. 验证(Verification)
独立验证,过滤不可利用的发现。
关键教训:不要让发现代理同时做验证。它会自我审查,过滤掉真实漏洞。
做法:
- 验证代理在全新容器中运行,无共享文件系统或对话历史
- 只给验证代理:(1) PoC 或书面发现 (2) 代码库
- 让验证代理假设每个发现都是假阳性,寻找证据反驳
- 多个独立验证代理,多数投票
- 要求验证代理构建并执行可复现的 PoC
效果:对抗性验证将不可利用发现率降低约一半;要求 PoC 后,假阳性率接近零
5. 分类(Triage)
去重、定级、排优先级。
现在 AI 能在一个上午找到 100 个候选漏洞,分类成了瓶颈。
去重:按根因去重,不是按文件位置。同根因的多个调用点 = 一个漏洞。
定级维度:
- 可达性(Reachability)
- 攻击者控制度(Attacker control)
- 前置条件(Preconditions)
- 认证要求(Authentication)
- 读 vs 写(Read vs Write)
- 影响范围(Blast radius)
经验:先让 AI 写出每个维度的证据,再分配严重级别。避免"SQL 注入 = 严重"的锚定效应
6. 修补(Patching)
关闭循环,改进下一轮。
测试驱动:先写测试(应失败),修复后确认通过。
检查阶梯:
- 构建通过
- 原始 PoC 不再工作
- 原有测试套件仍通过
- 新发现代理无法绕过修复
对抗性检查:让新发现代理攻击补丁,确认修复彻底。
常见失败:补丁过于激进,破坏了与其他服务的连接。最小改动原则。
四、开源的不是代码,是认知框架
defending-code-reference-harness 仓库包含:
1. Claude Code Skills(交互式)
/quickstart:30 秒引导/threat-model:威胁建模/vuln-scan:漏洞扫描/triage:分类验证/patch:生成修复/customize:适配你的技术栈
2. 自主流水线(Autonomous Pipeline)
harness/ 目录下的参考实现:
- Recon:轻量级代理读取源码,分区攻击面
- Find:并行代理,各在隔离容器中,构造畸形输入
- Verify:独立验证代理复现崩溃
- Dedupe:判断新漏洞/已知漏洞/重复
- Report:结构化可利用性分析
- Patch:生成修复 + 验证修复有效
默认配置用于 C/C++ 内存漏洞(Docker + ASAN),但 Anthropic 明确说:形状通用,可以移植到任何语言和漏洞类型。
3. 快速上手路径
| 时间 | 目标 |
|---|---|
| Day 1 | 建立威胁模型,跑第一次静态扫描 + 分类 |
| Day 2 | 在 C/C++ 库上跑参考流水线 |
| Day 3-5 | 适配你的技术栈 |
| Week 2 | 开始自主扫描、分类、修补 |
五、炒作成分与真实价值
1. 炒作成分
"10,000+ 漏洞"的数字需要拆解:
- 这是 AI 的初步评估,不是全部确认
- 经过独立验证的 1,752 个中,90.6% 真实 → 约 1,587 个
- 确认高危/严重的 1,094 个
- 已修补的仅 75 个(截至 5 月 22 日)
- 维护者请求 Anthropic 放慢披露速度,处理不过来
发现漏洞的速度,已经超过了人类验证和修补的能力。
2. 真实价值
不在于"找到多少漏洞",而在于:
- 方法论:六步闭环是可复用的认知框架
- 工具链:从威胁模型到自主扫描的完整 pipeline
- 经验:"什么有效、什么无效"的真实总结
博客文章本身就是价值:
- "更具体的提示词反而效果更差"
- "发现代理同时做验证会自我审查"
- "验证代理假设假阳性,寻找反驳证据"
- "测试床(test bed)是最大杠杆"
这些不是理论,是花 1 亿美元和 50 家合作伙伴换来的经验压缩。
六、对行业的深远影响
1. 安全瓶颈转移
过去:发现漏洞是瓶颈。工具贵、人工慢、覆盖面窄。
现在:验证和修补是瓶颈。AI 可以生成无限漏洞报告,但人类处理速度有限。
"Glasswing 没找到 10,000 个漏洞。它找到了网络安全行业的下一个瓶颈。" — Platform Engineering
2. 开源维护者的困境
Anthropic 的披露政策是 90 天协调披露。但维护者面临的现实:
- 低质量 AI 漏洞报告已经让他们疲于应对
- Glasswing 的报告质量更高,但数量更多
- 部分维护者请求"放慢披露"
这是安全生态的系统性问题:发现能力突增,修复能力没跟上。
3. Mythos Preview 的敏感性
Anthropic 不会公开发布 Mythos Preview。原因:
- 同一能力,防御用是找漏洞,攻击用是利用漏洞
- 英国 AI 安全研究所:第一个能端到端攻破两个网络攻防靶场的模型
- XBOW:"在所有现有模型之上显著跃升"
目前只有 50 家"系统重要性"防御者能使用。Anthropic 表示:"没有公司开发出足够强的防护措施来防止此类模型被滥用。"
4. 对开发者的实用建议
| 场景 | 建议 |
|---|---|
| 有代码库需要审计 | 用开源的 defending-code-reference-harness,Day 1 就能跑通 |
| 企业环境 | 等 Claude Security(托管产品)或自己定制 pipeline |
| 开源维护者 | 准备应对 AI 生成的高质量漏洞报告潮 |
| 安全团队 | 投资验证和修补能力,不是发现能力 |
| 个人开发者 | 缩短补丁周期,让软件自动更新,减少暴露窗口 |
七、结论:教科书级别的开源
Anthropic 开源 Glasswing 方法论,不是一个 PR stunt。这是认知层面的开源——把花 1 亿美元买来的经验,打包成可复用的框架。
核心洞见:
- 发现漏洞已经变得简单——AI 可以并行化
- 验证和修补才是瓶颈——需要投资
- 威胁模型是一切的基础——没有它,AI 就是盲目扫描
- 独立验证是关键——不要信任发现代理的自我审查
- 沙箱是安全底线——AI 会做出你预期之外的事
"在 AI 能力突增的另一侧,有一个令人鼓舞的世界:重要代码可以比今天更坚固,黑客攻击可以远不如今日普遍。" — Anthropic
Glasswing 不是终点。它是 AI 辅助安全审计的新起点——一个发现不再是瓶颈、但修复需要全生态协作的时代。
参考链接
- 开源仓库:https://github.com/anthropics/defending-code-reference-harness
- 官方博客:https://claude.com/blog/using-llms-to-secure-source-code
- 首月战报:https://www.anthropic.com/research/glasswing-initial-update
- 项目主页:https://www.anthropic.com/glasswing
- Cisco 开源评估规范:https://github.com/cisco/foundry-security-spec
#Anthropic #Glasswing #AI安全 #漏洞审计 #开源安全 #MythosPreview #网络安全 #Claude #安全方法论 #代码审计
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。