研究日期: 2026-05-19
研究机构: Subquadratic(迈阿密)
核心产品: SubQ 1M-Preview
声称突破: 首个完全次平方方(subquadratic) frontier LLM
研究结论: 架构方向合理,证据链严重不完整,独立验证 pending
一、 claimed breakthrough:他们说了什么
1.1 核心数字
| 指标 | SubQ 声称 | 参照物 | 倍数 |
|---|---|---|---|
| Attention compute reduction (12M tokens) | ~1000x | Dense Transformer | 1000x |
| Prefill speedup (1M tokens) | 52.2x | FlashAttention-2 | 52x |
| Prefill speedup (128K tokens) | 7.2x | FlashAttention-2 | 7x |
| Context window (research) | 12M tokens | Claude Opus (~1M) | 12x |
| Cost (RULER 128K) | \(8 | Claude Opus (~\)2,600) | 325x | |
| Input price ratio | ~1/5 | Frontier models avg | 5x cheaper |
1.2 Benchmark 结果
| Benchmark | SubQ 1M-Preview | 对比对象 | 备注 |
|---|---|---|---|
| RULER 128K | 95.0% | Claude Opus 4.6: 94.8% | 基本持平,接近饱和 |
| MRCR v2 (1M) | 65.9% (production) / 83% (research) | GPT-5.5: 74.0% | production 落后 GPT-5.5 |
| SWE-Bench Verified | 81.8% | Claude Opus 4.6: 80.8%* | *注意:Opus 4.6 内部数字是 87.6% |
| Needle-in-Haystack (12M) | 92.1% | 无对比 | 自报 |
⚠️ 关键警告: 所有 benchmark 均为公司自报或由单一未命名第三方验证。无独立复现。
二、SSA 架构技术解析
2.1 问题本质:Transformer 的二次方诅咒
标准 Transformer attention 的计算复杂度是 O(n²)。
- 100K tokens → 10B 次比较
- 1M tokens → 1T 次比较
- 12M tokens → 144T 次比较
这就是所谓"二次方墙":输入翻倍,算力翻四倍。
2.2 SSA 的核心机制
Subquadratic Sparse Attention (SSA) 声称解决了这个问题的 选择步骤 本身也是次平方的:
传统 Dense Attention:
Query (N) × Keys (N) → N² 次计算 → Attention weights
SSA 声称的改进:
Query (N) → Subquadratic Selector → 选出 top-k 位置 (<N)
↓
只对选出的位置计算 exact attention
关键区别:
- 不是固定模式(如 sliding window)
- 不是压缩状态(如 Mamba 的 recurrent state)
- 不是混合架构(如 Kimi Linear 的 3:1 比例)
- 而是 内容依赖的动态路由,且路由本身也是次平方的
2.3 为什么这很难
稀疏注意力的"墓地"已经很长:
| 方法 | 承诺 | 实际结果 |
|---|---|---|
| Mamba / SSM | 线性复杂度 | 在 frontier scale 上性能低于 transformer |
| RWKV | 线性复杂度 | 差距随规模扩大 |
| Kimi Linear | 线性注意力 | 实际用 3:1 混合(3层线性 + 1层二次方 MLA),只有常数级加速 |
| DeepSeek Sparse Attention | 稀疏索引 | 索引器本身是二次方的("indexer trap") |
| Longformer / BigBird | 固定稀疏模式 | 远程依赖召回失败 |
SubQ 声称同时满足三个约束:
- ✅ 选择步骤本身是次平方的(避免 indexer trap)
- ✅ 无混合二次方层(纯 SSA)
- ✅ Frontier scale 上性能不 degraded
⚠️ 这三个约束同时满足,在历史上 从未被实现过。这是怀疑论者质疑的核心。
三、证据链分析:哪些可信,哪些存疑
3.1 已验证的事实(高可信度)
| 事实 | 证据来源 | 可信度 |
|---|---|---|
| 公司真实存在 | SEC Form D (2026年2月) | ✅ 高 |
| \(29M 种子轮 | 多家媒体报道 | ✅ 高 | | CTO 承认使用开源权重 | Alex Whedon X 帖子 | ✅ 高 | | 有 11 名 PhD | 公司自述,姓名未公开 | ⚠️ 中 | | GPU 合同\)19.6M | Digi Power X 合同 | ✅ 高 |
| API 确实运行 | 可注册 waitlist | ✅ 高 |
| RULER 95% / MRCR 65.9% | 单一第三方验证 | ⚠️ 中 |
3.2 存疑的声明(低可信度)
| 声明 | 问题 | 严重程度 |
|---|---|---|
| "Ground-up redesign" | CTO 承认基于开源权重微调 | 🔴 高 |
| "1000x attention compute reduction" | 仅指 attention 部分,非端到端 | 🟡 中 |
| "52x faster than FlashAttention" | Architecture-level comparison,非端到端 | 🟡 中 |
| "1/5 cost of frontier models" | 无公开定价,无法验证 | 🔴 高 |
| "12M token functional context" | 仅 research model,无第三方验证 | 🔴 高 |
| SWE-Bench 81.8% vs Opus 80.8% | Opus 实际内部数字是 87.6% | 🔴 高 |
| MRCR v2 83% (research) | 与 production 差 17%,未解释 | 🔴 高 |
3.3 最致命的三个问题
问题一:"Ground-up Redesign"还是"Sparse Attention Finetune"?
这是 Will Depue(OpenAI 工程师)提出的核心质疑。
- 公司宣传: "ground-up redesign of how attention works, built to be subquadratic from first principles"
- CTO 承认: "using weights from open-source models as a starting point, as a function of our funding and maturity as a company"
- 实际含义: SubQ 很可能是在现有开源模型(如 Kimi 或 DeepSeek)的基础上,添加/替换了一个 SSA 注意力层,然后进行了继续预训练和微调。
这不是"从零设计",这是"给现有车换引擎"。技术价值仍在,但宣传语言过度了。
问题二:Research vs Production 的 17% 性能鸿沟
| 模式 | MRCR v2 1M | 差距 |
|---|---|---|
| Research model | 83.0% | — |
| Production model | 65.9% | -17.1% |
这个差距相当于从"接近 GPT-5.5"掉到"接近 Gemini 3.1 Pro"。公司未给出明确解释。可能的原因:
- 量化(quantization)损失
- 更短的实际可用上下文
- Safety/alignment 层的干扰
- 不同的推理参数
无论原因是什么,17% 的未解释差距是一个巨大的 red flag。
问题三:竞品数字的不一致性
Subquadratic 自己的材料中,竞品数字不一致:
| Benchmark | Press Release 数字 | Technical Post 数字 |
|---|---|---|
| Claude Opus MRCR v2 | 32.2% | 78.3% |
| Claude Opus SWE-Bench | 80.8% | 87.6% |
同一来源的两个数字相差 2.4x(MRCR)和 1.08x(SWE-Bench)。
这意味着:
- 如果信 technical post → SubQ 在长上下文上 不如 Claude
- 如果信 press release → SubQ 大幅领先
- 公司需要解释为什么自己的两个材料不一致
四、历史类比:Magic.dev 的幽灵
4.1 惊人的相似
| Magic.dev (2024) | Subquadratic (2026) | |
|---|---|---|
| 声称上下文窗口 | 100M tokens | 12M tokens (research) |
| 声称效率提升 | ~1000x | ~1000x |
| 主要用例 | 软件工程 | 软件工程 |
| 融资额 | ~\(500M |\)29M seed | |
| 访问方式 | 限制/内部 | Private beta |
| 技术论文 | 未发布 | "coming soon" |
| 2026年状态 | 无外部使用证据 | 刚发布 |
Magic.dev 的 LTM-2-mini 在发布 21 个月后,没有公开的外部使用证据。
这不是说 SubQ 会重蹈覆辙,但这意味着:类似的声明需要类似的证据标准。
五、团队与背景分析
5.1 领导力
| 角色 | 姓名 | 背景 | 评价 |
|---|---|---|---|
| CEO | Justin Dangel | 5次连续创业者(健康科技、保险科技、消费品) | 运营能力强,但非 AI 研究背景 |
| CTO | Alex Whedon | Meta 软件工程师 → TribeAI Head of Generative AI | 有工程实施经验,但非顶级研究 pedigree |
5.2 研究团队
- 声称 11 名 PhD,来自 Meta、Google、Oxford、Cambridge、ByteDance、Adobe、Microsoft
- 姓名未公开 → 无法验证具体 pedigree
- 无已知 foundational AI paper 的发表记录
这与 Anthropic(Transformer 作者之一)、OpenAI(GPT 系列)、DeepSeek(MLA/NSA 作者)形成对比。
5.3 投资人
- Justin Mateen(Tinder 联合创始人)
- Javier Villamizar(前软银愿景基金合伙人)
- Anthropic/OpenAI/Stripe/Brex 的早期投资人
投资人群偏 consumer/marketplace,非 deep tech/foundation model 背景。
六、如果 claims 为真,意味着什么
6.1 对 AI 架构的影响
如果 SSA 确实满足三个约束(次平方选择、纯稀疏、frontier 性能),这将是自 2017 年 Transformer 以来最重要的架构变革。
具体影响:
- 长上下文成为默认,而非奢侈品 → RAG 行业受冲击
- Inference 成本断崖式下降 → 新的应用经济模型
- KV Cache 瓶颈消失 → 硬件需求结构变化
- 单 pass 处理整本书/整个代码库 → 新的 UX 范式
6.2 如果 claims 夸大
更可能的中间状态:
- SSA 提供 常数级加速(如 5-10x),而非宣称的 52-1000x
- 在长上下文检索任务上有效,但在通用推理上仍有差距
- 最终成为 混合架构 的一部分,而非完全替代 Transformer
七、结论与评分
7.1 综合评分:6.5/10
| 维度 | 评分 | 理由 |
|---|---|---|
| 架构可信度 | 7/10 | 概念合理,历史上有先例但未成功 |
| 证据完整度 | 4/10 | 无技术论文,无开放权重,无独立验证 |
| Benchmark 质量 | 5/10 | 仅 3 个 benchmark,范围狭窄,单次运行 |
| 团队可信度 | 6/10 | 真实公司,但研究 pedigree 不透明 |
| 商业可行性 | 7/10 | 产品已上线,有实际 API,有企业客户 |
| 宣传诚实度 | 5/10 | "ground-up redesign"与"开源权重起点"矛盾 |
7.2 最终判断
SubQ 不是 Theranos。
- 公司是真实的
- 产品是运行的
- 团队有工程能力
- 架构方向是合理的
但 SubQ 也尚未证明自己不是另一个 Magic.dev。
- 核心 claims(1000x、52x、ground-up redesign)缺乏独立验证
- 宣传语言与技术现实之间存在显著 gap
- 历史 precedent 不支持"次平方 attention 在 frontier scale 上成功"的乐观假设
7.3 建议
对于开发者: 可以试用 API,适合长上下文检索任务。但不要基于 SubQ 做长期架构决策。
对于投资者: 方向有趣,但 $500M 估值对于一个无技术论文、无开放权重、benchmark 范围狭窄的 seed-stage 公司,风险很高。
对于研究者: 等待技术报告。如果报告中的 claims 能独立复现,这是重大 news。如果不能,这是又一个被过度宣传的稀疏注意力方案。
真正的考验不是 benchmark,而是数学能否在独立审查中存活。
八、References
- Subquadratic launch blog: https://subq.ai/introducing-subq
- VentureBeat coverage: https://venturebeat.com/technology/miami-startup-subquadratic-claims-1-000x-ai-efficiency-gain-with-subq-model-researchers-demand-independent-proof
- The New Stack: https://thenewstack.io/subquadratic-12-million-context-window/
- ChatForest review: https://chatforest.com/reviews/subquadratic-subq-1m-preview-llm-review/
- AwesomeAgents review: https://awesomeagents.ai/reviews/review-subq/
- Inside Subquadratic (Jake Cuthbertson): https://www.jakecuth.com/work/subquadratic-lab/
- LessWrong "Debunking claims about subquadratic attention": https://www.lesswrong.com/posts/kpSXeMcthtHgnwMx3/debunking-claims-about-subquadratic-attention
- Abhishek Shankar "How Subquadratic Won by Giving Up on Replacing Transformers": https://abhishek-shankar.com/posts/subquadratic-won-by-surrendering
- Atlas Peak Research report: https://www.atlaspeakresearch.com/report/542fd2
- SubQ technical explainer (SSA): https://subq.ai/ssa
本报告基于 2026-05-19 可获取的公开信息。Subquadratic 声称技术报告即将发布,届时本报告可能需要更新。
#SubQ #稀疏注意力 #LLM架构 #深度研究 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。