SubQ 1.1 Small:1200万token上下文,注意力计算的1/1000,是革命还是泡沫?
2026年6月16日,一家叫 Subquadratic 的迈阿密创业公司扔出了一枚炸弹:SubQ 1.1 Small —— 一个宣称拥有 1200万token上下文窗口 的语言模型,注意力计算量只有传统密集注意力的 1/1000,在100万token下比 Flash Attention 2 快 56倍。
如果属实,这是自Transformer以来最激进的架构创新。如果夸大,这是继Magic.dev之后又一个"100M token"式的叙事陷阱。
本文深入解析SubQ的技术原理、实测数据、应用场景,以及社区中最尖锐的质疑。
---
01|为什么需要突破二次方?
标准Transformer的注意力机制是 O(n²)。token数量翻倍,计算量翻四倍。这就像一个残酷的税:
| 上下文长度 | 注意力计算量(相对值) |
|---|---|
| 4K | 1x |
| 128K | 1024x |
| 1M | 65,536x |
| 12M | ~9,000,000x |
SubQ的赌注是:别让注意力负担变重,让注意力本身变聪明。
---
02|SSA:内容感知的稀疏注意力
SubQ的核心是 Subquadratic Sparse Attention (SSA)。不是简单的"只看附近的token",而是学习哪些token关系值得计算。
传统稀疏注意力:固定模式——局部窗口 + 几个全局token。结构高效,但语义盲目。不管输入是什么,模式不变。
SSA:内容自适应。模型动态判断每个query该关注哪些key,只计算"有价值的"关系。在1200万token时,仅关注 0.13% 的token对,却保持98%的检索准确率。
技术架构三层:
1. 分层注意力:token聚成局部簇,跨簇注意力在更高抽象层处理 2. 选择性全局锚点:少量高重要性token全局可见,其余用局部+选择注意力 3. 高效内存管理:分块计算,缓存历史上下文
复杂度接近 O(n log n) 或 O(n·k),k是一个远小于n的常数。这是scaling-law级别的胜利,不是常数优化。
---
03|数字:快多少?省多少?
计算效率
| 指标 | SSA | 密集注意力 | 倍数 |
|---|---|---|---|
| 1M token FLOPs | 3.9 PFLOP | 252 PFLOP | 64.5x 少 |
| 单注意力层速度 (H100) | 966 ms | 54,164 ms | 56x 快 |
| 与FlashAttention交叉点 | ~16K token | - | 16K以上持续拉开 |
检索能力(Needle-in-Haystack)
| 上下文长度 | 准确率 |
|---|---|
| 1M | 100% |
| 2M | 100% |
| 6M | 98% |
| 12M | 98% |
RULER 长上下文综合测试(128K)
- SubQ 1.1 Small: 99.12%
- 错误集中在"聚合类"任务(多token统计),单点检索几乎全对
通用能力(不拉胯)
| 基准 | SubQ | 对比 |
|---|---|---|
| GPQA Diamond | 85.4% | 接近 Sonnet 4.6,高于 GPT-5.4-nano |
| LiveCodeBench v6 (pass@4) | 89.7% | 接近 GPT-5.5 (92),远超小模型 |
| AutomationBench Finance | 13% | 接近 Opus 4.8 (16%),GPT-5.5 (18%) |
成本
- SubQ 评估RULER-128K:约$8
- Claude Opus 评估RULER-128K:约$2,600
---
04|怎么训练出来的?
SubQ 不是从零训练。团队拿了一个已有 262K上下文 的开源前沿模型,把密集注意力换成SSA,然后 分阶段扩展:
1. 262K → 512K(YaRN位置编码缩放) 2. 512K → 1M(长上下文持续预训练) 3. 1M → 2M(更多长数据训练)
训练数据:自然长文本——书籍、长文档、仓库级代码。大约 1万亿token 的持续预训练,大部分在1M阶段。
关键发现:长上下文持续预训练 是长上下文能力的最强杠杆,比后训练技巧更稳定。
团队跑了 100多个百万token实验 才找到配方。SSA让这种迭代成为可能——每次实验成本可控,否则百万token实验就是烧钱游戏。
---
05|能用来干什么?
12M token不是数字游戏,它改变几个场景的可行性:
🔍 全代码库推理 把整个代码库(数百万token)塞进上下文,不用RAG、不用chunking。跨文件依赖、全局重构、架构分析,一次完成。
📄 法律合同审查 整份并购协议、整套诉讼材料直接喂进去。不遗漏交叉引用,不丢失条款关联。
📊 金融全景分析 十年财报、所有附注、管理层讨论、行业对比,一次加载。不用人工分段,不用多次检索。
🤖 持久Agent记忆 Agent的完整交互历史、工具调用结果、推理轨迹全部保留。不再因为摘要而丢失细节。
但前提是:这些场景真的需要12M token吗?
多数应用128K-200K足够。12M的价值在"把完整artifact放进推理",而不是"用更长的窗口做同样的事"。
---
06|质疑:为什么社区不信任?
SubQ面临着结构化质疑,不是喷子,而是合理的警惕:
1. 没有公开权重,没有论文 所有数字都是自报。Appen做了独立验证,但外部研究者无法复现。"paper coming soon" 在AI圈是红旗。
2. 生产与研究的差距
- 研究配置:12M上下文,MRCR v2 = 83%
- 生产API:1M上下文,MRCR v2 = 65.9%
3. 单一运行结果 每个benchmark只跑了一次,理由是"推理成本太高"。没有置信区间,没有误差条。
4. Magic.dev的前车之鉴 2024年8月,Magic.dev宣布LTM-2-mini:100M token上下文,类似效率声明,融资约5亿美元。18个月后,几乎没有公开采用证据。SubQ的叙事与Magic惊人相似。
5. 狭窄的benchmark覆盖 只公布了RULER、MRCR、SWE-Bench——全是SubQ的强项。没有MMLU、数学、多语言、安全评测。
6. 估值与证据不匹配 种子轮$29M,估值约$5亿。没有公开模型、没有同行评审、没有收入。投资方偏消费/增长,不是深度技术AI。
> "SubQ的声明要么是自Transformer以来最重要的架构突破,要么是一个资金充足的幻觉。没有中间态。" —— VentureBeat引用的AI研究者
---
07|竞品对比:SSA不是唯一解
| 路线 | 代表 | 复杂度 | 核心问题 |
|---|---|---|---|
| SSA (SubQ) | SubQ 1.1 | O(n log n) ~ O(n) | 尚未独立验证 |
| FlashAttention | 所有主流模型 | O(n²),优化内存 | 不改变二次方本质 |
| DeepSeek Lightning Indexer | DeepSeek DSA/CSA | 混合:二次方打分+稀疏注意力 | 1M时约16x成本,12M时约190x |
| 状态空间模型 | Mamba, RWKV | O(n) | 精确记忆和复制任务弱于Transformer |
| 固定模式稀疏 | Longformer, BigBird | O(n),固定模式 | 语义盲目,丢失相关token |
| RAG + 密集注意力 | 大多数应用 | 检索O(n) + 注意力O(k²) | chunking丢失跨段关联 |
---
08|如果属实,意味着什么?
RAG的黄昏?
Sutton's Bitter Lesson视角:RAG、chunking、摘要、agentic编排——这些很大程度上是上下文稀缺的 workaround。如果完整推理一个artifact的成本足够低,这些脚手架可能被学习取代。
但不是说RAG会消失。RAG解决的是知识新鲜度和跨文档关联,不只是长度问题。SubQ让"把整本书放进去推理"可行,但互联网-scale的检索仍然是另一回事。
产品形态变化
SubQ Code是第一个信号:CLI agent直接加载整个代码库,不依赖检索。如果成本真的降到$8 vs $2600,开发者会重新设计工具——从"检索+推理"变成"全量加载+推理"。
研究加速器
团队能跑100+百万token实验,因为SSA让每次实验<1分钟。长上下文研究从"猜配方"变成"可迭代搜索"。
---
09|结论:激动但不确定
SubQ 1.1 Small是一个技术上合理、证据上不足的声明。
合理之处:
- 稀疏注意力是真实研究方向,SSA的内容自适应方向是对的
- 团队有Meta GenAI背景的CTO(Alexander Whedon)
- 分阶段训练+持续预训练的配方可信
- 独立验证机构Appen参与(虽非完全独立)
- 没有公开权重,没有技术论文
- 生产API仅1M,研究配置才是12M
- 单一运行、窄覆盖的benchmark
- 估值与证据严重不匹配
- Magic.dev的前车之鉴
SSA的方向大概率是对的——次二次方注意力是Transformer的必由之路。但SubQ的具体数字需要打折扣:56x加速是单注意力层,不是端到端;12M上下文是研究配置,不是生产可用;成本对比基于自报推理成本,未经第三方审计。
建议:
- 开发团队:加入waitlist,在自己的数据上测试,不要依赖benchmark
- 研究者:等论文和权重,关注独立复现
- 投资者:估值已经price in了最乐观场景,风险不对称
---
参考来源
- SubQ Model Card & Technical Report (Subquadratic, 2026-06-16)
- "SubQ 1.1 Small Explained" (PJFP, 2026-06-18)
- "What Is Sub-Quadratic Sparse Attention?" (MindStudio, 2026-06-20)
- "SubQ: The Subquadratic LLM" (DataCamp, 2026-05-12)
- "SubQ's 12M-Token AI: Breakthrough or Theranos?" (ByteIota, 2026-05-08)
- VentureBeat, The New Stack, Hacker News社区讨论
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens