SubQ 1.1 Small：1200万token上下文，注意力计算的1/1000，是革命还是泡沫？

2026年6月16日，一家叫 Subquadratic 的迈阿密创业公司扔出了一枚炸弹：SubQ 1.1 Small —— 一个宣称拥有 1200万token上下文窗口 的语言模型，注意力计算量只有传统密集注意力的 1/1000，在100万token下比 Flash Attention 2 快 56倍。

如果属实，这是自Transformer以来最激进的架构创新。如果夸大，这是继Magic.dev之后又一个"100M token"式的叙事陷阱。

本文深入解析SubQ的技术原理、实测数据、应用场景，以及社区中最尖锐的质疑。

---

01｜为什么需要突破二次方？

标准Transformer的注意力机制是 O(n²)。token数量翻倍，计算量翻四倍。这就像一个残酷的税：

上下文长度	注意力计算量（相对值）
4K	1x
128K	1024x
1M	65,536x
12M	~9,000,000x

industry's workaround has been a band-aid: FlashAttention优化内存访问，但不改变二次方本质；RAG把长文档切碎了检索，但丢失跨chunk关联；滑动窗口只关注局部，但长距离依赖就断了。

SubQ的赌注是：别让注意力负担变重，让注意力本身变聪明。

---

02｜SSA：内容感知的稀疏注意力

SubQ的核心是 Subquadratic Sparse Attention (SSA)。不是简单的"只看附近的token"，而是学习哪些token关系值得计算。

传统稀疏注意力：固定模式——局部窗口 + 几个全局token。结构高效，但语义盲目。不管输入是什么，模式不变。

SSA：内容自适应。模型动态判断每个query该关注哪些key，只计算"有价值的"关系。在1200万token时，仅关注 0.13% 的token对，却保持98%的检索准确率。

技术架构三层：

1. 分层注意力：token聚成局部簇，跨簇注意力在更高抽象层处理 2. 选择性全局锚点：少量高重要性token全局可见，其余用局部+选择注意力 3. 高效内存管理：分块计算，缓存历史上下文

复杂度接近 O(n log n) 或 O(n·k)，k是一个远小于n的常数。这是scaling-law级别的胜利，不是常数优化。

---

03｜数字：快多少？省多少？

计算效率

指标	SSA	密集注意力	倍数
1M token FLOPs	3.9 PFLOP	252 PFLOP	64.5x 少
单注意力层速度 (H100)	966 ms	54,164 ms	56x 快
与FlashAttention交叉点	~16K token	-	16K以上持续拉开

注意：56x是单注意力层的速度，不是端到端推理。端到端加速会低于这个数字，但趋势明确——上下文越长，优势越大。

检索能力（Needle-in-Haystack）

上下文长度	准确率
1M	100%
2M	100%
6M	98%
12M	98%

关键：模型主要在 1M token 训练，少量2M，完全没有6M-12M的训练数据。这意味着 上下文长度泛化 —— 模型能处理远超训练时的长度。这是架构层面的能力，不是记忆。

RULER 长上下文综合测试（128K）

SubQ 1.1 Small: 99.12%
错误集中在"聚合类"任务（多token统计），单点检索几乎全对

通用能力（不拉胯）

基准	SubQ	对比
GPQA Diamond	85.4%	接近 Sonnet 4.6，高于 GPT-5.4-nano
LiveCodeBench v6 (pass@4)	89.7%	接近 GPT-5.5 (92)，远超小模型
AutomationBench Finance	13%	接近 Opus 4.8 (16%)，GPT-5.5 (18%)

长上下文没有牺牲短上下文能力。这是最难的平衡。

成本

SubQ 评估RULER-128K：约$8
Claude Opus 评估RULER-128K：约$2,600

约1/325的成本，但需要注意：这是单次推理成本对比，未包含训练成本摊销。

---

04｜怎么训练出来的？

SubQ 不是从零训练。团队拿了一个已有 262K上下文 的开源前沿模型，把密集注意力换成SSA，然后 分阶段扩展：

1. 262K → 512K（YaRN位置编码缩放） 2. 512K → 1M（长上下文持续预训练） 3. 1M → 2M（更多长数据训练）

训练数据：自然长文本——书籍、长文档、仓库级代码。大约 1万亿token 的持续预训练，大部分在1M阶段。

关键发现：长上下文持续预训练 是长上下文能力的最强杠杆，比后训练技巧更稳定。

团队跑了 100多个百万token实验 才找到配方。SSA让这种迭代成为可能——每次实验成本可控，否则百万token实验就是烧钱游戏。

---

05｜能用来干什么？

12M token不是数字游戏，它改变几个场景的可行性：

🔍 全代码库推理 把整个代码库（数百万token）塞进上下文，不用RAG、不用chunking。跨文件依赖、全局重构、架构分析，一次完成。

📄 法律合同审查 整份并购协议、整套诉讼材料直接喂进去。不遗漏交叉引用，不丢失条款关联。

📊 金融全景分析 十年财报、所有附注、管理层讨论、行业对比，一次加载。不用人工分段，不用多次检索。

🤖 持久Agent记忆 Agent的完整交互历史、工具调用结果、推理轨迹全部保留。不再因为摘要而丢失细节。

但前提是：这些场景真的需要12M token吗？

多数应用128K-200K足够。12M的价值在"把完整artifact放进推理"，而不是"用更长的窗口做同样的事"。

---

06｜质疑：为什么社区不信任？

SubQ面临着结构化质疑，不是喷子，而是合理的警惕：

1. 没有公开权重，没有论文 所有数字都是自报。Appen做了独立验证，但外部研究者无法复现。"paper coming soon" 在AI圈是红旗。

2. 生产与研究的差距

研究配置：12M上下文，MRCR v2 = 83%
生产API：1M上下文，MRCR v2 = 65.9%

17个百分点的差距没有解释。 headline numbers是研究配置，实际用的是生产模型。

3. 单一运行结果 每个benchmark只跑了一次，理由是"推理成本太高"。没有置信区间，没有误差条。

4. Magic.dev的前车之鉴 2024年8月，Magic.dev宣布LTM-2-mini：100M token上下文，类似效率声明，融资约5亿美元。18个月后，几乎没有公开采用证据。SubQ的叙事与Magic惊人相似。

5. 狭窄的benchmark覆盖 只公布了RULER、MRCR、SWE-Bench——全是SubQ的强项。没有MMLU、数学、多语言、安全评测。

6. 估值与证据不匹配 种子轮$29M，估值约$5亿。没有公开模型、没有同行评审、没有收入。投资方偏消费/增长，不是深度技术AI。

> "SubQ的声明要么是自Transformer以来最重要的架构突破，要么是一个资金充足的幻觉。没有中间态。" —— VentureBeat引用的AI研究者

---

07｜竞品对比：SSA不是唯一解

路线	代表	复杂度	核心问题
SSA (SubQ)	SubQ 1.1	O(n log n) ~ O(n)	尚未独立验证
FlashAttention	所有主流模型	O(n²)，优化内存	不改变二次方本质
DeepSeek Lightning Indexer	DeepSeek DSA/CSA	混合：二次方打分+稀疏注意力	1M时约16x成本，12M时约190x
状态空间模型	Mamba, RWKV	O(n)	精确记忆和复制任务弱于Transformer
固定模式稀疏	Longformer, BigBird	O(n)，固定模式	语义盲目，丢失相关token
RAG + 密集注意力	大多数应用	检索O(n) + 注意力O(k²)	chunking丢失跨段关联

SubQ的赌注：SSA的学习稀疏比固定稀疏和状态空间模型更好，同时真正降低复杂度。

---

08｜如果属实，意味着什么？

RAG的黄昏？

Sutton's Bitter Lesson视角：RAG、chunking、摘要、agentic编排——这些很大程度上是上下文稀缺的 workaround。如果完整推理一个artifact的成本足够低，这些脚手架可能被学习取代。

但不是说RAG会消失。RAG解决的是知识新鲜度和跨文档关联，不只是长度问题。SubQ让"把整本书放进去推理"可行，但互联网-scale的检索仍然是另一回事。

产品形态变化

SubQ Code是第一个信号：CLI agent直接加载整个代码库，不依赖检索。如果成本真的降到$8 vs $2600，开发者会重新设计工具——从"检索+推理"变成"全量加载+推理"。

研究加速器

团队能跑100+百万token实验，因为SSA让每次实验<1分钟。长上下文研究从"猜配方"变成"可迭代搜索"。

---

09｜结论：激动但不确定

SubQ 1.1 Small是一个技术上合理、证据上不足的声明。

合理之处：

稀疏注意力是真实研究方向，SSA的内容自适应方向是对的
团队有Meta GenAI背景的CTO（Alexander Whedon）
分阶段训练+持续预训练的配方可信
独立验证机构Appen参与（虽非完全独立）

不足之处：

没有公开权重，没有技术论文
生产API仅1M，研究配置才是12M
单一运行、窄覆盖的benchmark
估值与证据严重不匹配
Magic.dev的前车之鉴

我的判断：

SSA的方向大概率是对的——次二次方注意力是Transformer的必由之路。但SubQ的具体数字需要打折扣：56x加速是单注意力层，不是端到端；12M上下文是研究配置，不是生产可用；成本对比基于自报推理成本，未经第三方审计。

建议：

开发团队：加入waitlist，在自己的数据上测试，不要依赖benchmark
研究者：等论文和权重，关注独立复现
投资者：估值已经price in了最乐观场景，风险不对称

> 如果SubQ的声明有一半属实，长上下文推理的经济学就被重写了。如果全部属实，我们可能正在见证后Transformer时代的第一个主流架构。 > > 但2026年6月的今天，我们还站在"等待验证"这一边。

---

参考来源

SubQ Model Card & Technical Report (Subquadratic, 2026-06-16)
"SubQ 1.1 Small Explained" (PJFP, 2026-06-18)
"What Is Sub-Quadratic Sparse Attention?" (MindStudio, 2026-06-20)
"SubQ: The Subquadratic LLM" (DataCamp, 2026-05-12)
"SubQ's 12M-Token AI: Breakthrough or Theranos?" (ByteIota, 2026-05-08)
VentureBeat, The New Stack, Hacker News社区讨论

#SubQ #SSA #稀疏注意力 #长上下文 #Transformer #AI架构 #论文解读