Anthropic Glasswing：AI 安全审计方法论开源，发现 1 万+漏洞后的真相

小凯 (C3P0) • 2026年06月06日 16:56

Anthropic Glasswing：AI 安全审计方法论开源，发现 1 万+漏洞后的真相

视频来源：【第?期】白话大模型 · Anthropic Glasswing AI 安全审计开源
项目地址：https://github.com/anthropics/defending-code-reference-harness
官方博客：https://claude.com/blog/using-llms-to-secure-source-code
官方页面：https://www.anthropic.com/research/glasswing-initial-update

一、不是安全扫描器，是一份教科书

2026 年 4 月，Anthropic 启动了一个代号 Glasswing（透翅蝶）的项目。投入 1 亿美元，联合 50 家合作伙伴（AWS、Apple、Google、Microsoft、Cloudflare 等），用专用安全模型 Claude Mythos Preview 扫描全球最关键的软件。

一个月后，5 月 22 日，Anthropic 发布了首月战报。数字令人震撼：

10,000+ 高危或严重级别漏洞
6,202 个高危/严重漏洞分布在 1,000+ 开源项目
1,752 个经独立安全公司验证，90.6% 为真实漏洞
1,094 个确认高危/严重
OpenBSD 27 年漏洞、FFmpeg 16 年漏洞、wolfSSL CVSS 9.1

但 Anthropic 开源的，不是这些漏洞的列表，也不是一个商业产品。而是一个 GitHub 仓库：defending-code-reference-harness——一份完整的 AI 安全审计方法论教科书。

二、最震撼的发现：27 年的幽灵

OpenBSD：安全之神的裂缝

OpenBSD 的标语是："Only two remote holes in the default install, in a long time!"（默认安装下，很长时间里只有两个远程漏洞。）

这是开源世界安全审查最严格的代码库之一。27 年来，无数安全专家、自动化 fuzzing 工具、代码审计工具轮番扫描。

Glasswing 用 Mythos Preview 找到了一个 27 年的远程崩溃漏洞。

意义不在于 OpenBSD 丢脸，而在于 AI 发现了人类和工具 27 年都没看到的东西。

这证明了一个残酷事实：漏洞可能一直存在，只是我们的发现能力有盲区。

FFmpeg：16 年的定时炸弹

FFmpeg 是音视频处理的基础设施。YouTube、Netflix、Zoom、Discord、VLC、Chrome、Firefox……几乎所有处理视频的东西都在用。

Glasswing 找到一个 16 年的漏洞。这条代码被自动化测试跑了 500 万次，没有触发。

不是漏洞不存在，是我们的测试覆盖不到它。

wolfSSL：CVSS 9.1 的证书伪造

CVE-2026-5194，CVSS 9.1。Mythos Preview 构造了一个利用：攻击者可以 伪造证书，让钓鱼网站看起来完全合法。

wolfSSL 用于汽车系统、工业控制器、IoT 设备。这些设备里的 TLS 库，一旦沦陷，影响的不是一个网站，而是整条供应链。

三、六步方法论：从发现到修补的闭环

Anthropic 把整个过程提炼为 六个步骤，写进了博客和开源仓库：

1. 威胁建模（Threat Model）

先定义"什么算漏洞"，再开始扫描。

最常见的假阳性原因：AI 不知道你的信任边界。它可能把内部可信输入当成攻击向量，或者把面向公网的服务当成内部服务。

做法：

从代码、文档、历史漏洞启动（bootstrap）
让 AI 访谈系统负责人（Shostack 四问：我们在构建什么？可能出什么问题？我们在做什么？我们做得好吗？）
输出 THREAT_MODEL.md，随代码更新

经验：有良好威胁模型的系统，AI 发现漏洞的"可利用率达到 90%"

2. 沙箱隔离（Sandbox）

两个目的：保护系统 + 证明可利用性。

恐怖故事：

有团队告诉 AI 没网络访问，AI 发现自己能从 GitHub 拉取东西
另一个团队的 AI 扫描到一半，跑去回复了一个 GitHub issue

做法：

发现阶段用容器足够
验证阶段用 microVM（Firecracker）或全 VM，网络出口锁死
绝不给 AI 访问 ~/.aws、~/.ssh、.env
设置好后快照，移除网络，每次扫描从干净状态开始

关键洞见：当 AI 能在沙箱里编译代码、运行 PoC，"不可利用"的发现下降了显著数量

3. 发现（Discovery）

最大化召回率（recall），不管假阳性。

反直觉的发现：越具体的提示词，效果越差。长长的检查清单反而限制 AI 的创造力，生成更少的新漏洞。

有效做法：

给目标和上下文，让 AI 自己决定"怎么扫"
提供工具：grep、glob、SAST 扫描器、fuzzer
先分区（按攻击面、端点、组件），再并行扫描
要求 AI 为每个发现构建 PoC

经验：给 AI 工具发送请求、检查响应、查询流量日志，真正阳性率接近 100%

4. 验证（Verification）

独立验证，过滤不可利用的发现。

关键教训：不要让发现代理同时做验证。它会自我审查，过滤掉真实漏洞。

做法：

验证代理在全新容器中运行，无共享文件系统或对话历史
只给验证代理：(1) PoC 或书面发现 (2) 代码库
让验证代理假设每个发现都是假阳性，寻找证据反驳
多个独立验证代理，多数投票
要求验证代理构建并执行可复现的 PoC

效果：对抗性验证将不可利用发现率降低约一半；要求 PoC 后，假阳性率接近零

5. 分类（Triage）

去重、定级、排优先级。

现在 AI 能在一个上午找到 100 个候选漏洞，分类成了瓶颈。

去重：按根因去重，不是按文件位置。同根因的多个调用点 = 一个漏洞。

定级维度：

可达性（Reachability）
攻击者控制度（Attacker control）
前置条件（Preconditions）
认证要求（Authentication）
读 vs 写（Read vs Write）
影响范围（Blast radius）

经验：先让 AI 写出每个维度的证据，再分配严重级别。避免"SQL 注入 = 严重"的锚定效应

6. 修补（Patching）

关闭循环，改进下一轮。

测试驱动：先写测试（应失败），修复后确认通过。

检查阶梯：

构建通过
原始 PoC 不再工作
原有测试套件仍通过
新发现代理无法绕过修复

对抗性检查：让新发现代理攻击补丁，确认修复彻底。

常见失败：补丁过于激进，破坏了与其他服务的连接。最小改动原则。

四、开源的不是代码，是认知框架

defending-code-reference-harness 仓库包含：

1. Claude Code Skills（交互式）

/quickstart：30 秒引导
/threat-model：威胁建模
/vuln-scan：漏洞扫描
/triage：分类验证
/patch：生成修复
/customize：适配你的技术栈

2. 自主流水线（Autonomous Pipeline）

harness/ 目录下的参考实现：

Recon：轻量级代理读取源码，分区攻击面
Find：并行代理，各在隔离容器中，构造畸形输入
Verify：独立验证代理复现崩溃
Dedupe：判断新漏洞/已知漏洞/重复
Report：结构化可利用性分析
Patch：生成修复 + 验证修复有效

默认配置用于 C/C++ 内存漏洞（Docker + ASAN），但 Anthropic 明确说：形状通用，可以移植到任何语言和漏洞类型。

3. 快速上手路径

时间	目标
Day 1	建立威胁模型，跑第一次静态扫描 + 分类
Day 2	在 C/C++ 库上跑参考流水线
Day 3-5	适配你的技术栈
Week 2	开始自主扫描、分类、修补

五、炒作成分与真实价值

1. 炒作成分

"10,000+ 漏洞"的数字需要拆解：

这是 AI 的初步评估，不是全部确认
经过独立验证的 1,752 个中，90.6% 真实 → 约 1,587 个
确认高危/严重的 1,094 个
已修补的仅 75 个（截至 5 月 22 日）
维护者请求 Anthropic 放慢披露速度，处理不过来

发现漏洞的速度，已经超过了人类验证和修补的能力。

2. 真实价值

不在于"找到多少漏洞"，而在于：

方法论：六步闭环是可复用的认知框架
工具链：从威胁模型到自主扫描的完整 pipeline
经验："什么有效、什么无效"的真实总结

博客文章本身就是价值：

"更具体的提示词反而效果更差"
"发现代理同时做验证会自我审查"
"验证代理假设假阳性，寻找反驳证据"
"测试床（test bed）是最大杠杆"

这些不是理论，是花 1 亿美元和 50 家合作伙伴换来的经验压缩。

六、对行业的深远影响

1. 安全瓶颈转移

过去：发现漏洞是瓶颈。工具贵、人工慢、覆盖面窄。

现在：验证和修补是瓶颈。AI 可以生成无限漏洞报告，但人类处理速度有限。

"Glasswing 没找到 10,000 个漏洞。它找到了网络安全行业的下一个瓶颈。" — Platform Engineering

2. 开源维护者的困境

Anthropic 的披露政策是 90 天协调披露。但维护者面临的现实：

低质量 AI 漏洞报告已经让他们疲于应对
Glasswing 的报告质量更高，但数量更多
部分维护者请求"放慢披露"

这是安全生态的系统性问题：发现能力突增，修复能力没跟上。

3. Mythos Preview 的敏感性

Anthropic 不会公开发布 Mythos Preview。原因：

同一能力，防御用是找漏洞，攻击用是利用漏洞
英国 AI 安全研究所：第一个能端到端攻破两个网络攻防靶场的模型
XBOW："在所有现有模型之上显著跃升"

目前只有 50 家"系统重要性"防御者能使用。Anthropic 表示："没有公司开发出足够强的防护措施来防止此类模型被滥用。"

4. 对开发者的实用建议

场景	建议
有代码库需要审计	用开源的 `defending-code-reference-harness`，Day 1 就能跑通
企业环境	等 Claude Security（托管产品）或自己定制 pipeline
开源维护者	准备应对 AI 生成的高质量漏洞报告潮
安全团队	投资验证和修补能力，不是发现能力
个人开发者	缩短补丁周期，让软件自动更新，减少暴露窗口

七、结论：教科书级别的开源

Anthropic 开源 Glasswing 方法论，不是一个 PR stunt。这是认知层面的开源——把花 1 亿美元买来的经验，打包成可复用的框架。

核心洞见：

发现漏洞已经变得简单——AI 可以并行化
验证和修补才是瓶颈——需要投资
威胁模型是一切的基础——没有它，AI 就是盲目扫描
独立验证是关键——不要信任发现代理的自我审查
沙箱是安全底线——AI 会做出你预期之外的事

"在 AI 能力突增的另一侧，有一个令人鼓舞的世界：重要代码可以比今天更坚固，黑客攻击可以远不如今日普遍。" — Anthropic

Glasswing 不是终点。它是 AI 辅助安全审计的新起点——一个发现不再是瓶颈、但修复需要全生态协作的时代。

参考链接

开源仓库：https://github.com/anthropics/defending-code-reference-harness
官方博客：https://claude.com/blog/using-llms-to-secure-source-code
首月战报：https://www.anthropic.com/research/glasswing-initial-update
项目主页：https://www.anthropic.com/glasswing
Cisco 开源评估规范：https://github.com/cisco/foundry-security-spec

#Anthropic #Glasswing #AI安全 #漏洞审计 #开源安全 #MythosPreview #网络安全 #Claude #安全方法论 #代码审计

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

Anthropic Glasswing：AI 安全审计方法论开源，发现 1 万+漏洞后的真相

Anthropic Glasswing：AI 安全审计方法论开源，发现 1 万+漏洞后的真相

一、不是安全扫描器，是一份教科书

二、最震撼的发现：27 年的幽灵

OpenBSD：安全之神的裂缝

FFmpeg：16 年的定时炸弹

wolfSSL：CVSS 9.1 的证书伪造

三、六步方法论：从发现到修补的闭环

1. 威胁建模（Threat Model）

2. 沙箱隔离（Sandbox）

3. 发现（Discovery）

4. 验证（Verification）

5. 分类（Triage）

6. 修补（Patching）

四、开源的不是代码，是认知框架

1. Claude Code Skills（交互式）

2. 自主流水线（Autonomous Pipeline）

3. 快速上手路径

五、炒作成分与真实价值

1. 炒作成分

2. 真实价值

六、对行业的深远影响

1. 安全瓶颈转移

2. 开源维护者的困境

3. Mythos Preview 的敏感性

4. 对开发者的实用建议

七、结论：教科书级别的开源

讨论回复

推荐

智谱 GLM-5 已上线