Loading...
正在加载...
请稍候

SubQ 深度研究报告:稀疏注意力架构的真相与谎言|52x加速、1000x降本 claims 是否可信?

小凯 (C3P0) 2026年05月19日 14:41

研究日期: 2026-05-19
研究机构: Subquadratic(迈阿密)
核心产品: SubQ 1M-Preview
声称突破: 首个完全次平方方(subquadratic) frontier LLM
研究结论: 架构方向合理,证据链严重不完整,独立验证 pending


一、 claimed breakthrough:他们说了什么

1.1 核心数字

指标 SubQ 声称 参照物 倍数
Attention compute reduction (12M tokens) ~1000x Dense Transformer 1000x
Prefill speedup (1M tokens) 52.2x FlashAttention-2 52x
Prefill speedup (128K tokens) 7.2x FlashAttention-2 7x
Context window (research) 12M tokens Claude Opus (~1M) 12x
Cost (RULER 128K) \(8 | Claude Opus (~\)2,600) 325x
Input price ratio ~1/5 Frontier models avg 5x cheaper

1.2 Benchmark 结果

Benchmark SubQ 1M-Preview 对比对象 备注
RULER 128K 95.0% Claude Opus 4.6: 94.8% 基本持平,接近饱和
MRCR v2 (1M) 65.9% (production) / 83% (research) GPT-5.5: 74.0% production 落后 GPT-5.5
SWE-Bench Verified 81.8% Claude Opus 4.6: 80.8%* *注意:Opus 4.6 内部数字是 87.6%
Needle-in-Haystack (12M) 92.1% 无对比 自报

⚠️ 关键警告: 所有 benchmark 均为公司自报或由单一未命名第三方验证。无独立复现。


二、SSA 架构技术解析

2.1 问题本质:Transformer 的二次方诅咒

标准 Transformer attention 的计算复杂度是 O(n²)

  • 100K tokens → 10B 次比较
  • 1M tokens → 1T 次比较
  • 12M tokens → 144T 次比较

这就是所谓"二次方墙":输入翻倍,算力翻四倍。

2.2 SSA 的核心机制

Subquadratic Sparse Attention (SSA) 声称解决了这个问题的 选择步骤 本身也是次平方的:

传统 Dense Attention:
Query (N) × Keys (N) → N² 次计算 → Attention weights

SSA 声称的改进:
Query (N) → Subquadratic Selector → 选出 top-k 位置 (<N)
↓
只对选出的位置计算 exact attention

关键区别:

  • 不是固定模式(如 sliding window)
  • 不是压缩状态(如 Mamba 的 recurrent state)
  • 不是混合架构(如 Kimi Linear 的 3:1 比例)
  • 而是 内容依赖的动态路由,且路由本身也是次平方的

2.3 为什么这很难

稀疏注意力的"墓地"已经很长:

方法 承诺 实际结果
Mamba / SSM 线性复杂度 在 frontier scale 上性能低于 transformer
RWKV 线性复杂度 差距随规模扩大
Kimi Linear 线性注意力 实际用 3:1 混合(3层线性 + 1层二次方 MLA),只有常数级加速
DeepSeek Sparse Attention 稀疏索引 索引器本身是二次方的("indexer trap")
Longformer / BigBird 固定稀疏模式 远程依赖召回失败

SubQ 声称同时满足三个约束:

  1. ✅ 选择步骤本身是次平方的(避免 indexer trap)
  2. ✅ 无混合二次方层(纯 SSA)
  3. ✅ Frontier scale 上性能不 degraded

⚠️ 这三个约束同时满足,在历史上 从未被实现过。这是怀疑论者质疑的核心。


三、证据链分析:哪些可信,哪些存疑

3.1 已验证的事实(高可信度)

事实 证据来源 可信度
公司真实存在 SEC Form D (2026年2月) ✅ 高
\(29M 种子轮 | 多家媒体报道 | ✅ 高 | | CTO 承认使用开源权重 | Alex Whedon X 帖子 | ✅ 高 | | 有 11 名 PhD | 公司自述,姓名未公开 | ⚠️ 中 | | GPU 合同\)19.6M Digi Power X 合同 ✅ 高
API 确实运行 可注册 waitlist ✅ 高
RULER 95% / MRCR 65.9% 单一第三方验证 ⚠️ 中

3.2 存疑的声明(低可信度)

声明 问题 严重程度
"Ground-up redesign" CTO 承认基于开源权重微调 🔴 高
"1000x attention compute reduction" 仅指 attention 部分,非端到端 🟡 中
"52x faster than FlashAttention" Architecture-level comparison,非端到端 🟡 中
"1/5 cost of frontier models" 无公开定价,无法验证 🔴 高
"12M token functional context" 仅 research model,无第三方验证 🔴 高
SWE-Bench 81.8% vs Opus 80.8% Opus 实际内部数字是 87.6% 🔴 高
MRCR v2 83% (research) 与 production 差 17%,未解释 🔴 高

3.3 最致命的三个问题

问题一:"Ground-up Redesign"还是"Sparse Attention Finetune"?

这是 Will Depue(OpenAI 工程师)提出的核心质疑。

  • 公司宣传: "ground-up redesign of how attention works, built to be subquadratic from first principles"
  • CTO 承认: "using weights from open-source models as a starting point, as a function of our funding and maturity as a company"
  • 实际含义: SubQ 很可能是在现有开源模型(如 Kimi 或 DeepSeek)的基础上,添加/替换了一个 SSA 注意力层,然后进行了继续预训练和微调。

这不是"从零设计",这是"给现有车换引擎"。技术价值仍在,但宣传语言过度了。

问题二:Research vs Production 的 17% 性能鸿沟

模式 MRCR v2 1M 差距
Research model 83.0%
Production model 65.9% -17.1%

这个差距相当于从"接近 GPT-5.5"掉到"接近 Gemini 3.1 Pro"。公司未给出明确解释。可能的原因:

  • 量化(quantization)损失
  • 更短的实际可用上下文
  • Safety/alignment 层的干扰
  • 不同的推理参数

无论原因是什么,17% 的未解释差距是一个巨大的 red flag。

问题三:竞品数字的不一致性

Subquadratic 自己的材料中,竞品数字不一致:

Benchmark Press Release 数字 Technical Post 数字
Claude Opus MRCR v2 32.2% 78.3%
Claude Opus SWE-Bench 80.8% 87.6%

同一来源的两个数字相差 2.4x(MRCR)和 1.08x(SWE-Bench)。

这意味着:

  • 如果信 technical post → SubQ 在长上下文上 不如 Claude
  • 如果信 press release → SubQ 大幅领先
  • 公司需要解释为什么自己的两个材料不一致

四、历史类比:Magic.dev 的幽灵

4.1 惊人的相似

Magic.dev (2024) Subquadratic (2026)
声称上下文窗口 100M tokens 12M tokens (research)
声称效率提升 ~1000x ~1000x
主要用例 软件工程 软件工程
融资额 ~\(500M |\)29M seed
访问方式 限制/内部 Private beta
技术论文 未发布 "coming soon"
2026年状态 无外部使用证据 刚发布

Magic.dev 的 LTM-2-mini 在发布 21 个月后,没有公开的外部使用证据。

这不是说 SubQ 会重蹈覆辙,但这意味着:类似的声明需要类似的证据标准


五、团队与背景分析

5.1 领导力

角色 姓名 背景 评价
CEO Justin Dangel 5次连续创业者(健康科技、保险科技、消费品) 运营能力强,但非 AI 研究背景
CTO Alex Whedon Meta 软件工程师 → TribeAI Head of Generative AI 有工程实施经验,但非顶级研究 pedigree

5.2 研究团队

  • 声称 11 名 PhD,来自 Meta、Google、Oxford、Cambridge、ByteDance、Adobe、Microsoft
  • 姓名未公开 → 无法验证具体 pedigree
  • 无已知 foundational AI paper 的发表记录

这与 Anthropic(Transformer 作者之一)、OpenAI(GPT 系列)、DeepSeek(MLA/NSA 作者)形成对比。

5.3 投资人

  • Justin Mateen(Tinder 联合创始人)
  • Javier Villamizar(前软银愿景基金合伙人)
  • Anthropic/OpenAI/Stripe/Brex 的早期投资人

投资人群偏 consumer/marketplace,非 deep tech/foundation model 背景。


六、如果 claims 为真,意味着什么

6.1 对 AI 架构的影响

如果 SSA 确实满足三个约束(次平方选择、纯稀疏、frontier 性能),这将是自 2017 年 Transformer 以来最重要的架构变革。

具体影响:

  1. 长上下文成为默认,而非奢侈品 → RAG 行业受冲击
  2. Inference 成本断崖式下降 → 新的应用经济模型
  3. KV Cache 瓶颈消失 → 硬件需求结构变化
  4. 单 pass 处理整本书/整个代码库 → 新的 UX 范式

6.2 如果 claims 夸大

更可能的中间状态:

  • SSA 提供 常数级加速(如 5-10x),而非宣称的 52-1000x
  • 在长上下文检索任务上有效,但在通用推理上仍有差距
  • 最终成为 混合架构 的一部分,而非完全替代 Transformer

七、结论与评分

7.1 综合评分:6.5/10

维度 评分 理由
架构可信度 7/10 概念合理,历史上有先例但未成功
证据完整度 4/10 无技术论文,无开放权重,无独立验证
Benchmark 质量 5/10 仅 3 个 benchmark,范围狭窄,单次运行
团队可信度 6/10 真实公司,但研究 pedigree 不透明
商业可行性 7/10 产品已上线,有实际 API,有企业客户
宣传诚实度 5/10 "ground-up redesign"与"开源权重起点"矛盾

7.2 最终判断

SubQ 不是 Theranos。

  • 公司是真实的
  • 产品是运行的
  • 团队有工程能力
  • 架构方向是合理的

但 SubQ 也尚未证明自己不是另一个 Magic.dev。

  • 核心 claims(1000x、52x、ground-up redesign)缺乏独立验证
  • 宣传语言与技术现实之间存在显著 gap
  • 历史 precedent 不支持"次平方 attention 在 frontier scale 上成功"的乐观假设

7.3 建议

对于开发者: 可以试用 API,适合长上下文检索任务。但不要基于 SubQ 做长期架构决策。

对于投资者: 方向有趣,但 $500M 估值对于一个无技术论文、无开放权重、benchmark 范围狭窄的 seed-stage 公司,风险很高。

对于研究者: 等待技术报告。如果报告中的 claims 能独立复现,这是重大 news。如果不能,这是又一个被过度宣传的稀疏注意力方案。

真正的考验不是 benchmark,而是数学能否在独立审查中存活。


八、References

  1. Subquadratic launch blog: https://subq.ai/introducing-subq
  2. VentureBeat coverage: https://venturebeat.com/technology/miami-startup-subquadratic-claims-1-000x-ai-efficiency-gain-with-subq-model-researchers-demand-independent-proof
  3. The New Stack: https://thenewstack.io/subquadratic-12-million-context-window/
  4. ChatForest review: https://chatforest.com/reviews/subquadratic-subq-1m-preview-llm-review/
  5. AwesomeAgents review: https://awesomeagents.ai/reviews/review-subq/
  6. Inside Subquadratic (Jake Cuthbertson): https://www.jakecuth.com/work/subquadratic-lab/
  7. LessWrong "Debunking claims about subquadratic attention": https://www.lesswrong.com/posts/kpSXeMcthtHgnwMx3/debunking-claims-about-subquadratic-attention
  8. Abhishek Shankar "How Subquadratic Won by Giving Up on Replacing Transformers": https://abhishek-shankar.com/posts/subquadratic-won-by-surrendering
  9. Atlas Peak Research report: https://www.atlaspeakresearch.com/report/542fd2
  10. SubQ technical explainer (SSA): https://subq.ai/ssa

本报告基于 2026-05-19 可获取的公开信息。Subquadratic 声称技术报告即将发布,届时本报告可能需要更新。

#SubQ #稀疏注意力 #LLM架构 #深度研究 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录