SubQ 深度研究报告：稀疏注意力架构的真相与谎言｜52x加速、1000x降本 claims 是否可信？

> 研究日期: 2026-05-19 > 研究机构: Subquadratic（迈阿密） > 核心产品: SubQ 1M-Preview > 声称突破: 首个完全次平方方（subquadratic） frontier LLM > 研究结论: 架构方向合理，证据链严重不完整，独立验证 pending

---

一、 claimed breakthrough：他们说了什么

1.1 核心数字

指标	SubQ 声称	参照物	倍数
Attention compute reduction (12M tokens)	~1000x	Dense Transformer	1000x
Prefill speedup (1M tokens)	52.2x	FlashAttention-2	52x
Prefill speedup (128K tokens)	7.2x	FlashAttention-2	7x
Context window (research)	12M tokens	Claude Opus (~1M)	12x
Cost (RULER 128K)	$8	Claude Opus (~$2,600)	325x
Input price ratio	~1/5	Frontier models avg	5x cheaper

1.2 Benchmark 结果

Benchmark	SubQ 1M-Preview	对比对象	备注
RULER 128K	95.0%	Claude Opus 4.6: 94.8%	基本持平，接近饱和
MRCR v2 (1M)	65.9% (production) / 83% (research)	GPT-5.5: 74.0%	production 落后 GPT-5.5
SWE-Bench Verified	81.8%	Claude Opus 4.6: 80.8%*	*注意：Opus 4.6 内部数字是 87.6%
Needle-in-Haystack (12M)	92.1%	无对比	自报

> ⚠️ 关键警告: 所有 benchmark 均为公司自报或由单一未命名第三方验证。无独立复现。

---

二、SSA 架构技术解析

2.1 问题本质：Transformer 的二次方诅咒

标准 Transformer attention 的计算复杂度是 O(n²)。

100K tokens → 10B 次比较
1M tokens → 1T 次比较
12M tokens → 144T 次比较

这就是所谓"二次方墙"：输入翻倍，算力翻四倍。

2.2 SSA 的核心机制

Subquadratic Sparse Attention (SSA) 声称解决了这个问题的 选择步骤 本身也是次平方的：

传统 Dense Attention:
Query (N) × Keys (N) → N² 次计算 → Attention weights

SSA 声称的改进:
Query (N) → Subquadratic Selector → 选出 top-k 位置 (<N)
↓
只对选出的位置计算 exact attention

关键区别:

不是固定模式（如 sliding window）
不是压缩状态（如 Mamba 的 recurrent state）
不是混合架构（如 Kimi Linear 的 3:1 比例）
而是 内容依赖的动态路由，且路由本身也是次平方的

2.3 为什么这很难

稀疏注意力的"墓地"已经很长：

方法	承诺	实际结果
Mamba / SSM	线性复杂度	在 frontier scale 上性能低于 transformer
RWKV	线性复杂度	差距随规模扩大
Kimi Linear	线性注意力	实际用 3:1 混合（3层线性 + 1层二次方 MLA），只有常数级加速
DeepSeek Sparse Attention	稀疏索引	索引器本身是二次方的（"indexer trap"）
Longformer / BigBird	固定稀疏模式	远程依赖召回失败

SubQ 声称同时满足三个约束： 1. ✅ 选择步骤本身是次平方的（避免 indexer trap） 2. ✅ 无混合二次方层（纯 SSA） 3. ✅ Frontier scale 上性能不 degraded

> ⚠️ 这三个约束同时满足，在历史上 从未被实现过。这是怀疑论者质疑的核心。

---

三、证据链分析：哪些可信，哪些存疑

3.1 已验证的事实（高可信度）

事实	证据来源	可信度
公司真实存在	SEC Form D (2026年2月)	✅ 高
$29M 种子轮	多家媒体报道	✅ 高
CTO 承认使用开源权重	Alex Whedon X 帖子	✅ 高
有 11 名 PhD	公司自述，姓名未公开	⚠️ 中
GPU 合同 $19.6M	Digi Power X 合同	✅ 高
API 确实运行	可注册 waitlist	✅ 高
RULER 95% / MRCR 65.9%	单一第三方验证	⚠️ 中

3.2 存疑的声明（低可信度）

声明	问题	严重程度
"Ground-up redesign"	CTO 承认基于开源权重微调	🔴 高
"1000x attention compute reduction"	仅指 attention 部分，非端到端	🟡 中
"52x faster than FlashAttention"	Architecture-level comparison，非端到端	🟡 中
"1/5 cost of frontier models"	无公开定价，无法验证	🔴 高
"12M token functional context"	仅 research model，无第三方验证	🔴 高
SWE-Bench 81.8% vs Opus 80.8%	Opus 实际内部数字是 87.6%	🔴 高
MRCR v2 83% (research)	与 production 差 17%，未解释	🔴 高

3.3 最致命的三个问题

#### 问题一："Ground-up Redesign"还是"Sparse Attention Finetune"？

这是 Will Depue（OpenAI 工程师）提出的核心质疑。

公司宣传: "ground-up redesign of how attention works, built to be subquadratic from first principles"
CTO 承认: "using weights from open-source models as a starting point, as a function of our funding and maturity as a company"
实际含义: SubQ 很可能是在现有开源模型（如 Kimi 或 DeepSeek）的基础上，添加/替换了一个 SSA 注意力层，然后进行了继续预训练和微调。

这不是"从零设计"，这是"给现有车换引擎"。技术价值仍在，但宣传语言过度了。

#### 问题二：Research vs Production 的 17% 性能鸿沟

模式	MRCR v2 1M	差距
Research model	83.0%	—
Production model	65.9%	-17.1%

这个差距相当于从"接近 GPT-5.5"掉到"接近 Gemini 3.1 Pro"。公司未给出明确解释。可能的原因：

量化（quantization）损失
更短的实际可用上下文
Safety/alignment 层的干扰
不同的推理参数

无论原因是什么，17% 的未解释差距是一个巨大的 red flag。

#### 问题三：竞品数字的不一致性

Subquadratic 自己的材料中，竞品数字不一致：

Benchmark	Press Release 数字	Technical Post 数字
Claude Opus MRCR v2	32.2%	78.3%
Claude Opus SWE-Bench	80.8%	87.6%

同一来源的两个数字相差 2.4x（MRCR）和 1.08x（SWE-Bench）。

这意味着：

如果信 technical post → SubQ 在长上下文上 不如 Claude
如果信 press release → SubQ 大幅领先
公司需要解释为什么自己的两个材料不一致

---

四、历史类比：Magic.dev 的幽灵

4.1 惊人的相似

	Magic.dev (2024)	Subquadratic (2026)
声称上下文窗口	100M tokens	12M tokens (research)
声称效率提升	~1000x	~1000x
主要用例	软件工程	软件工程
融资额	~$500M	$29M seed
访问方式	限制/内部	Private beta
技术论文	未发布	"coming soon"
2026年状态	无外部使用证据	刚发布

Magic.dev 的 LTM-2-mini 在发布 21 个月后，没有公开的外部使用证据。

这不是说 SubQ 会重蹈覆辙，但这意味着：类似的声明需要类似的证据标准。

---

五、团队与背景分析

5.1 领导力

角色	姓名	背景	评价
CEO	Justin Dangel	5次连续创业者（健康科技、保险科技、消费品）	运营能力强，但非 AI 研究背景
CTO	Alex Whedon	Meta 软件工程师 → TribeAI Head of Generative AI	有工程实施经验，但非顶级研究 pedigree

5.2 研究团队

声称 11 名 PhD，来自 Meta、Google、Oxford、Cambridge、ByteDance、Adobe、Microsoft
姓名未公开 → 无法验证具体 pedigree
无已知 foundational AI paper 的发表记录

这与 Anthropic（Transformer 作者之一）、OpenAI（GPT 系列）、DeepSeek（MLA/NSA 作者）形成对比。

5.3 投资人

Justin Mateen（Tinder 联合创始人）
Javier Villamizar（前软银愿景基金合伙人）
Anthropic/OpenAI/Stripe/Brex 的早期投资人

投资人群偏 consumer/marketplace，非 deep tech/foundation model 背景。

---

六、如果 claims 为真，意味着什么

6.1 对 AI 架构的影响

如果 SSA 确实满足三个约束（次平方选择、纯稀疏、frontier 性能），这将是自 2017 年 Transformer 以来最重要的架构变革。

具体影响： 1. 长上下文成为默认，而非奢侈品 → RAG 行业受冲击 2. Inference 成本断崖式下降 → 新的应用经济模型 3. KV Cache 瓶颈消失 → 硬件需求结构变化 4. 单 pass 处理整本书/整个代码库 → 新的 UX 范式

6.2 如果 claims 夸大

更可能的中间状态：

SSA 提供 常数级加速（如 5-10x），而非宣称的 52-1000x
在长上下文检索任务上有效，但在通用推理上仍有差距
最终成为 混合架构 的一部分，而非完全替代 Transformer

---

七、结论与评分

7.1 综合评分：6.5/10

维度	评分	理由
架构可信度	7/10	概念合理，历史上有先例但未成功
证据完整度	4/10	无技术论文，无开放权重，无独立验证
Benchmark 质量	5/10	仅 3 个 benchmark，范围狭窄，单次运行
团队可信度	6/10	真实公司，但研究 pedigree 不透明
商业可行性	7/10	产品已上线，有实际 API，有企业客户
宣传诚实度	5/10	"ground-up redesign"与"开源权重起点"矛盾

7.2 最终判断

SubQ 不是 Theranos。

公司是真实的
产品是运行的
团队有工程能力
架构方向是合理的

但 SubQ 也尚未证明自己不是另一个 Magic.dev。

核心 claims（1000x、52x、ground-up redesign）缺乏独立验证
宣传语言与技术现实之间存在显著 gap
历史 precedent 不支持"次平方 attention 在 frontier scale 上成功"的乐观假设

7.3 建议

对于开发者: 可以试用 API，适合长上下文检索任务。但不要基于 SubQ 做长期架构决策。

对于投资者: 方向有趣，但 $500M 估值对于一个无技术论文、无开放权重、benchmark 范围狭窄的 seed-stage 公司，风险很高。

对于研究者: 等待技术报告。如果报告中的 claims 能独立复现，这是重大 news。如果不能，这是又一个被过度宣传的稀疏注意力方案。

> 真正的考验不是 benchmark，而是数学能否在独立审查中存活。

---

八、References

1. Subquadratic launch blog: https://subq.ai/introducing-subq 2. VentureBeat coverage: https://venturebeat.com/technology/miami-startup-subquadratic-claims-1-000x-ai-efficiency-gain-with-subq-model-researchers-demand-independent-proof 3. The New Stack: https://thenewstack.io/subquadratic-12-million-context-window/ 4. ChatForest review: https://chatforest.com/reviews/subquadratic-subq-1m-preview-llm-review/ 5. AwesomeAgents review: https://awesomeagents.ai/reviews/review-subq/ 6. Inside Subquadratic (Jake Cuthbertson): https://www.jakecuth.com/work/subquadratic-lab/ 7. LessWrong "Debunking claims about subquadratic attention": https://www.lesswrong.com/posts/kpSXeMcthtHgnwMx3/debunking-claims-about-subquadratic-attention 8. Abhishek Shankar "How Subquadratic Won by Giving Up on Replacing Transformers": https://abhishek-shankar.com/posts/subquadratic-won-by-surrendering 9. Atlas Peak Research report: https://www.atlaspeakresearch.com/report/542fd2 10. SubQ technical explainer (SSA): https://subq.ai/ssa

---

*本报告基于 2026-05-19 可获取的公开信息。Subquadratic 声称技术报告即将发布，届时本报告可能需要更新。*

#SubQ #稀疏注意力 #LLM架构 #深度研究 #小凯