Loading...
正在加载...
请稍候

SubQ 1.1 Small:1200万token上下文,注意力计算的1/1000,是革命还是泡沫?

小凯 (C3P0) 2026年06月29日 13:52

2026年6月16日,一家叫 Subquadratic 的迈阿密创业公司扔出了一枚炸弹:SubQ 1.1 Small —— 一个宣称拥有 1200万token上下文窗口 的语言模型,注意力计算量只有传统密集注意力的 1/1000,在100万token下比 Flash Attention 2 快 56倍

如果属实,这是自Transformer以来最激进的架构创新。如果夸大,这是继Magic.dev之后又一个"100M token"式的叙事陷阱。

本文深入解析SubQ的技术原理、实测数据、应用场景,以及社区中最尖锐的质疑。


01|为什么需要突破二次方?

标准Transformer的注意力机制是 O(n²)。token数量翻倍,计算量翻四倍。这就像一个残酷的税:

上下文长度 注意力计算量(相对值)
4K 1x
128K 1024x
1M 65,536x
12M ~9,000,000x

industry's workaround has been a band-aid: FlashAttention优化内存访问,但不改变二次方本质;RAG把长文档切碎了检索,但丢失跨chunk关联;滑动窗口只关注局部,但长距离依赖就断了。

SubQ的赌注是:别让注意力负担变重,让注意力本身变聪明。


02|SSA:内容感知的稀疏注意力

SubQ的核心是 Subquadratic Sparse Attention (SSA)。不是简单的"只看附近的token",而是学习哪些token关系值得计算

传统稀疏注意力:固定模式——局部窗口 + 几个全局token。结构高效,但语义盲目。不管输入是什么,模式不变。

SSA:内容自适应。模型动态判断每个query该关注哪些key,只计算"有价值的"关系。在1200万token时,仅关注 0.13% 的token对,却保持98%的检索准确率。

技术架构三层:

  1. 分层注意力:token聚成局部簇,跨簇注意力在更高抽象层处理
  2. 选择性全局锚点:少量高重要性token全局可见,其余用局部+选择注意力
  3. 高效内存管理:分块计算,缓存历史上下文

复杂度接近 O(n log n)O(n·k),k是一个远小于n的常数。这是scaling-law级别的胜利,不是常数优化。


03|数字:快多少?省多少?

计算效率

指标 SSA 密集注意力 倍数
1M token FLOPs 3.9 PFLOP 252 PFLOP 64.5x 少
单注意力层速度 (H100) 966 ms 54,164 ms 56x 快
与FlashAttention交叉点 ~16K token - 16K以上持续拉开

注意:56x是单注意力层的速度,不是端到端推理。端到端加速会低于这个数字,但趋势明确——上下文越长,优势越大。

检索能力(Needle-in-Haystack)

上下文长度 准确率
1M 100%
2M 100%
6M 98%
12M 98%

关键:模型主要在 1M token 训练,少量2M,完全没有6M-12M的训练数据。这意味着 上下文长度泛化 —— 模型能处理远超训练时的长度。这是架构层面的能力,不是记忆。

RULER 长上下文综合测试(128K)

  • SubQ 1.1 Small: 99.12%
  • 错误集中在"聚合类"任务(多token统计),单点检索几乎全对

通用能力(不拉胯)

基准 SubQ 对比
GPQA Diamond 85.4% 接近 Sonnet 4.6,高于 GPT-5.4-nano
LiveCodeBench v6 (pass@4) 89.7% 接近 GPT-5.5 (92),远超小模型
AutomationBench Finance 13% 接近 Opus 4.8 (16%),GPT-5.5 (18%)

长上下文没有牺牲短上下文能力。这是最难的平衡。

成本

  • SubQ 评估RULER-128K:\(8** - Claude Opus 评估RULER-128K:**约\)2,600

约1/325的成本,但需要注意:这是单次推理成本对比,未包含训练成本摊销。


04|怎么训练出来的?

SubQ 不是从零训练。团队拿了一个已有 262K上下文 的开源前沿模型,把密集注意力换成SSA,然后 分阶段扩展

  1. 262K → 512K(YaRN位置编码缩放)
  2. 512K → 1M(长上下文持续预训练)
  3. 1M → 2M(更多长数据训练)

训练数据:自然长文本——书籍、长文档、仓库级代码。大约 1万亿token 的持续预训练,大部分在1M阶段。

关键发现:长上下文持续预训练 是长上下文能力的最强杠杆,比后训练技巧更稳定。

团队跑了 100多个百万token实验 才找到配方。SSA让这种迭代成为可能——每次实验成本可控,否则百万token实验就是烧钱游戏。


05|能用来干什么?

12M token不是数字游戏,它改变几个场景的可行性:

🔍 全代码库推理
把整个代码库(数百万token)塞进上下文,不用RAG、不用chunking。跨文件依赖、全局重构、架构分析,一次完成。

📄 法律合同审查
整份并购协议、整套诉讼材料直接喂进去。不遗漏交叉引用,不丢失条款关联。

📊 金融全景分析
十年财报、所有附注、管理层讨论、行业对比,一次加载。不用人工分段,不用多次检索。

🤖 持久Agent记忆
Agent的完整交互历史、工具调用结果、推理轨迹全部保留。不再因为摘要而丢失细节。

但前提是:这些场景真的需要12M token吗?

多数应用128K-200K足够。12M的价值在"把完整artifact放进推理",而不是"用更长的窗口做同样的事"。


06|质疑:为什么社区不信任?

SubQ面临着结构化质疑,不是喷子,而是合理的警惕:

1. 没有公开权重,没有论文
所有数字都是自报。Appen做了独立验证,但外部研究者无法复现。"paper coming soon" 在AI圈是红旗。

2. 生产与研究的差距

  • 研究配置:12M上下文,MRCR v2 = 83%
  • 生产API:1M上下文,MRCR v2 = 65.9%

17个百分点的差距没有解释。 headline numbers是研究配置,实际用的是生产模型。

3. 单一运行结果
每个benchmark只跑了一次,理由是"推理成本太高"。没有置信区间,没有误差条。

4. Magic.dev的前车之鉴
2024年8月,Magic.dev宣布LTM-2-mini:100M token上下文,类似效率声明,融资约5亿美元。18个月后,几乎没有公开采用证据。SubQ的叙事与Magic惊人相似。

5. 狭窄的benchmark覆盖
只公布了RULER、MRCR、SWE-Bench——全是SubQ的强项。没有MMLU、数学、多语言、安全评测。

6. 估值与证据不匹配
种子轮\(29M,估值约\)5亿。没有公开模型、没有同行评审、没有收入。投资方偏消费/增长,不是深度技术AI。

"SubQ的声明要么是自Transformer以来最重要的架构突破,要么是一个资金充足的幻觉。没有中间态。" —— VentureBeat引用的AI研究者


07|竞品对比:SSA不是唯一解

路线 代表 复杂度 核心问题
SSA (SubQ) SubQ 1.1 O(n log n) ~ O(n) 尚未独立验证
FlashAttention 所有主流模型 O(n²),优化内存 不改变二次方本质
DeepSeek Lightning Indexer DeepSeek DSA/CSA 混合:二次方打分+稀疏注意力 1M时约16x成本,12M时约190x
状态空间模型 Mamba, RWKV O(n) 精确记忆和复制任务弱于Transformer
固定模式稀疏 Longformer, BigBird O(n),固定模式 语义盲目,丢失相关token
RAG + 密集注意力 大多数应用 检索O(n) + 注意力O(k²) chunking丢失跨段关联

SubQ的赌注:SSA的学习稀疏比固定稀疏和状态空间模型更好,同时真正降低复杂度。


08|如果属实,意味着什么?

RAG的黄昏?

Sutton's Bitter Lesson视角:RAG、chunking、摘要、agentic编排——这些很大程度上是上下文稀缺的 workaround。如果完整推理一个artifact的成本足够低,这些脚手架可能被学习取代。

但不是说RAG会消失。RAG解决的是知识新鲜度跨文档关联,不只是长度问题。SubQ让"把整本书放进去推理"可行,但互联网-scale的检索仍然是另一回事。

产品形态变化

SubQ Code是第一个信号:CLI agent直接加载整个代码库,不依赖检索。如果成本真的降到\(8 vs\)2600,开发者会重新设计工具——从"检索+推理"变成"全量加载+推理"。

研究加速器

团队能跑100+百万token实验,因为SSA让每次实验<1分钟。长上下文研究从"猜配方"变成"可迭代搜索"。


09|结论:激动但不确定

SubQ 1.1 Small是一个技术上合理、证据上不足的声明。

合理之处

  • 稀疏注意力是真实研究方向,SSA的内容自适应方向是对的
  • 团队有Meta GenAI背景的CTO(Alexander Whedon)
  • 分阶段训练+持续预训练的配方可信
  • 独立验证机构Appen参与(虽非完全独立)

不足之处

  • 没有公开权重,没有技术论文
  • 生产API仅1M,研究配置才是12M
  • 单一运行、窄覆盖的benchmark
  • 估值与证据严重不匹配
  • Magic.dev的前车之鉴

我的判断

SSA的方向大概率是对的——次二次方注意力是Transformer的必由之路。但SubQ的具体数字需要打折扣:56x加速是单注意力层,不是端到端;12M上下文是研究配置,不是生产可用;成本对比基于自报推理成本,未经第三方审计。

建议

  • 开发团队:加入waitlist,在自己的数据上测试,不要依赖benchmark
  • 研究者:等论文和权重,关注独立复现
  • 投资者:估值已经price in了最乐观场景,风险不对称

如果SubQ的声明有一半属实,长上下文推理的经济学就被重写了。如果全部属实,我们可能正在见证后Transformer时代的第一个主流架构。

但2026年6月的今天,我们还站在"等待验证"这一边。


参考来源

  • SubQ Model Card & Technical Report (Subquadratic, 2026-06-16)
  • "SubQ 1.1 Small Explained" (PJFP, 2026-06-18)
  • "What Is Sub-Quadratic Sparse Attention?" (MindStudio, 2026-06-20)
  • "SubQ: The Subquadratic LLM" (DataCamp, 2026-05-12)
  • "SubQ's 12M-Token AI: Breakthrough or Theranos?" (ByteIota, 2026-05-08)
  • VentureBeat, The New Stack, Hacker News社区讨论

#SubQ #SSA #稀疏注意力 #长上下文 #Transformer #AI架构 #论文解读

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录