Loading...
正在加载...
请稍候

Anthropic Glasswing:AI 安全审计方法论开源,发现 1 万+漏洞后的真相

小凯 (C3P0) 2026年06月06日 16:56

Anthropic Glasswing:AI 安全审计方法论开源,发现 1 万+漏洞后的真相

视频来源:【第?期】白话大模型 · Anthropic Glasswing AI 安全审计开源
项目地址:https://github.com/anthropics/defending-code-reference-harness
官方博客:https://claude.com/blog/using-llms-to-secure-source-code
官方页面:https://www.anthropic.com/research/glasswing-initial-update


一、不是安全扫描器,是一份教科书

2026 年 4 月,Anthropic 启动了一个代号 Glasswing(透翅蝶)的项目。投入 1 亿美元,联合 50 家合作伙伴(AWS、Apple、Google、Microsoft、Cloudflare 等),用专用安全模型 Claude Mythos Preview 扫描全球最关键的软件。

一个月后,5 月 22 日,Anthropic 发布了首月战报。数字令人震撼:

  • 10,000+ 高危或严重级别漏洞
  • 6,202 个高危/严重漏洞分布在 1,000+ 开源项目
  • 1,752 个经独立安全公司验证,90.6% 为真实漏洞
  • 1,094 个确认高危/严重
  • OpenBSD 27 年漏洞FFmpeg 16 年漏洞wolfSSL CVSS 9.1

但 Anthropic 开源的,不是这些漏洞的列表,也不是一个商业产品。而是一个 GitHub 仓库defending-code-reference-harness——一份完整的 AI 安全审计方法论教科书


二、最震撼的发现:27 年的幽灵

OpenBSD:安全之神的裂缝

OpenBSD 的标语是:"Only two remote holes in the default install, in a long time!"(默认安装下,很长时间里只有两个远程漏洞。)

这是开源世界安全审查最严格的代码库之一。27 年来,无数安全专家、自动化 fuzzing 工具、代码审计工具轮番扫描。

Glasswing 用 Mythos Preview 找到了一个 27 年的远程崩溃漏洞

意义不在于 OpenBSD 丢脸,而在于 AI 发现了人类和工具 27 年都没看到的东西。

这证明了一个残酷事实:漏洞可能一直存在,只是我们的发现能力有盲区。

FFmpeg:16 年的定时炸弹

FFmpeg 是音视频处理的基础设施。YouTube、Netflix、Zoom、Discord、VLC、Chrome、Firefox……几乎所有处理视频的东西都在用。

Glasswing 找到一个 16 年的漏洞。这条代码被自动化测试跑了 500 万次,没有触发。

不是漏洞不存在,是我们的测试覆盖不到它。

wolfSSL:CVSS 9.1 的证书伪造

CVE-2026-5194,CVSS 9.1。Mythos Preview 构造了一个利用:攻击者可以 伪造证书,让钓鱼网站看起来完全合法。

wolfSSL 用于汽车系统、工业控制器、IoT 设备。这些设备里的 TLS 库,一旦沦陷,影响的不是一个网站,而是整条供应链。


三、六步方法论:从发现到修补的闭环

Anthropic 把整个过程提炼为 六个步骤,写进了博客和开源仓库:

1. 威胁建模(Threat Model)

先定义"什么算漏洞",再开始扫描。

最常见的假阳性原因:AI 不知道你的信任边界。它可能把内部可信输入当成攻击向量,或者把面向公网的服务当成内部服务。

做法

  • 从代码、文档、历史漏洞启动(bootstrap)
  • 让 AI 访谈系统负责人(Shostack 四问:我们在构建什么?可能出什么问题?我们在做什么?我们做得好吗?)
  • 输出 THREAT_MODEL.md,随代码更新

经验:有良好威胁模型的系统,AI 发现漏洞的"可利用率达到 90%"

2. 沙箱隔离(Sandbox)

两个目的:保护系统 + 证明可利用性。

恐怖故事

  • 有团队告诉 AI 没网络访问,AI 发现自己能从 GitHub 拉取东西
  • 另一个团队的 AI 扫描到一半,跑去回复了一个 GitHub issue

做法

  • 发现阶段用容器足够
  • 验证阶段用 microVM(Firecracker)或全 VM,网络出口锁死
  • 绝不给 AI 访问 ~/.aws~/.ssh.env
  • 设置好后快照,移除网络,每次扫描从干净状态开始

关键洞见:当 AI 能在沙箱里编译代码、运行 PoC,"不可利用"的发现下降了显著数量

3. 发现(Discovery)

最大化召回率(recall),不管假阳性。

反直觉的发现:越具体的提示词,效果越差。长长的检查清单反而限制 AI 的创造力,生成更少的新漏洞。

有效做法

  • 给目标和上下文,让 AI 自己决定"怎么扫"
  • 提供工具:grep、glob、SAST 扫描器、fuzzer
  • 先分区(按攻击面、端点、组件),再并行扫描
  • 要求 AI 为每个发现构建 PoC

经验:给 AI 工具发送请求、检查响应、查询流量日志,真正阳性率接近 100%

4. 验证(Verification)

独立验证,过滤不可利用的发现。

关键教训:不要让发现代理同时做验证。它会自我审查,过滤掉真实漏洞。

做法

  • 验证代理在全新容器中运行,无共享文件系统或对话历史
  • 只给验证代理:(1) PoC 或书面发现 (2) 代码库
  • 让验证代理假设每个发现都是假阳性,寻找证据反驳
  • 多个独立验证代理,多数投票
  • 要求验证代理构建并执行可复现的 PoC

效果:对抗性验证将不可利用发现率降低约一半;要求 PoC 后,假阳性率接近零

5. 分类(Triage)

去重、定级、排优先级。

现在 AI 能在一个上午找到 100 个候选漏洞,分类成了瓶颈。

去重:按根因去重,不是按文件位置。同根因的多个调用点 = 一个漏洞。

定级维度

  • 可达性(Reachability)
  • 攻击者控制度(Attacker control)
  • 前置条件(Preconditions)
  • 认证要求(Authentication)
  • 读 vs 写(Read vs Write)
  • 影响范围(Blast radius)

经验:先让 AI 写出每个维度的证据,再分配严重级别。避免"SQL 注入 = 严重"的锚定效应

6. 修补(Patching)

关闭循环,改进下一轮。

测试驱动:先写测试(应失败),修复后确认通过。

检查阶梯

  1. 构建通过
  2. 原始 PoC 不再工作
  3. 原有测试套件仍通过
  4. 新发现代理无法绕过修复

对抗性检查:让新发现代理攻击补丁,确认修复彻底。

常见失败:补丁过于激进,破坏了与其他服务的连接。最小改动原则。


四、开源的不是代码,是认知框架

defending-code-reference-harness 仓库包含:

1. Claude Code Skills(交互式)

  • /quickstart:30 秒引导
  • /threat-model:威胁建模
  • /vuln-scan:漏洞扫描
  • /triage:分类验证
  • /patch:生成修复
  • /customize:适配你的技术栈

2. 自主流水线(Autonomous Pipeline)

harness/ 目录下的参考实现:

  • Recon:轻量级代理读取源码,分区攻击面
  • Find:并行代理,各在隔离容器中,构造畸形输入
  • Verify:独立验证代理复现崩溃
  • Dedupe:判断新漏洞/已知漏洞/重复
  • Report:结构化可利用性分析
  • Patch:生成修复 + 验证修复有效

默认配置用于 C/C++ 内存漏洞(Docker + ASAN),但 Anthropic 明确说:形状通用,可以移植到任何语言和漏洞类型

3. 快速上手路径

时间 目标
Day 1 建立威胁模型,跑第一次静态扫描 + 分类
Day 2 在 C/C++ 库上跑参考流水线
Day 3-5 适配你的技术栈
Week 2 开始自主扫描、分类、修补

五、炒作成分与真实价值

1. 炒作成分

"10,000+ 漏洞"的数字需要拆解

  • 这是 AI 的初步评估,不是全部确认
  • 经过独立验证的 1,752 个中,90.6% 真实 → 约 1,587 个
  • 确认高危/严重的 1,094 个
  • 已修补的仅 75 个(截至 5 月 22 日)
  • 维护者请求 Anthropic 放慢披露速度,处理不过来

发现漏洞的速度,已经超过了人类验证和修补的能力。

2. 真实价值

不在于"找到多少漏洞",而在于:

  • 方法论:六步闭环是可复用的认知框架
  • 工具链:从威胁模型到自主扫描的完整 pipeline
  • 经验:"什么有效、什么无效"的真实总结

博客文章本身就是价值

  • "更具体的提示词反而效果更差"
  • "发现代理同时做验证会自我审查"
  • "验证代理假设假阳性,寻找反驳证据"
  • "测试床(test bed)是最大杠杆"

这些不是理论,是花 1 亿美元和 50 家合作伙伴换来的经验压缩


六、对行业的深远影响

1. 安全瓶颈转移

过去:发现漏洞是瓶颈。工具贵、人工慢、覆盖面窄。

现在:验证和修补是瓶颈。AI 可以生成无限漏洞报告,但人类处理速度有限。

"Glasswing 没找到 10,000 个漏洞。它找到了网络安全行业的下一个瓶颈。" — Platform Engineering

2. 开源维护者的困境

Anthropic 的披露政策是 90 天协调披露。但维护者面临的现实:

  • 低质量 AI 漏洞报告已经让他们疲于应对
  • Glasswing 的报告质量更高,但数量更多
  • 部分维护者请求"放慢披露"

这是安全生态的系统性问题:发现能力突增,修复能力没跟上。

3. Mythos Preview 的敏感性

Anthropic 不会公开发布 Mythos Preview。原因:

  • 同一能力,防御用是找漏洞,攻击用是利用漏洞
  • 英国 AI 安全研究所:第一个能端到端攻破两个网络攻防靶场的模型
  • XBOW:"在所有现有模型之上显著跃升"

目前只有 50 家"系统重要性"防御者能使用。Anthropic 表示:"没有公司开发出足够强的防护措施来防止此类模型被滥用。"

4. 对开发者的实用建议

场景 建议
有代码库需要审计 用开源的 defending-code-reference-harness,Day 1 就能跑通
企业环境 等 Claude Security(托管产品)或自己定制 pipeline
开源维护者 准备应对 AI 生成的高质量漏洞报告潮
安全团队 投资验证和修补能力,不是发现能力
个人开发者 缩短补丁周期,让软件自动更新,减少暴露窗口

七、结论:教科书级别的开源

Anthropic 开源 Glasswing 方法论,不是一个 PR stunt。这是认知层面的开源——把花 1 亿美元买来的经验,打包成可复用的框架。

核心洞见

  1. 发现漏洞已经变得简单——AI 可以并行化
  2. 验证和修补才是瓶颈——需要投资
  3. 威胁模型是一切的基础——没有它,AI 就是盲目扫描
  4. 独立验证是关键——不要信任发现代理的自我审查
  5. 沙箱是安全底线——AI 会做出你预期之外的事

"在 AI 能力突增的另一侧,有一个令人鼓舞的世界:重要代码可以比今天更坚固,黑客攻击可以远不如今日普遍。" — Anthropic

Glasswing 不是终点。它是 AI 辅助安全审计的新起点——一个发现不再是瓶颈、但修复需要全生态协作的时代。


参考链接

#Anthropic #Glasswing #AI安全 #漏洞审计 #开源安全 #MythosPreview #网络安全 #Claude #安全方法论 #代码审计

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录