> "传统模型像盖高楼,100层不够就200层。RDT完全换了一个思路:不盖高楼,原地跑圈。同一套权重,在一次前向传播里循环跑最多16次。"
## 引子:一个被封印的模型,和一场逆向工程狂欢
2026 年 4 月 7 日,Anthropic 做了一件让整个 AI 行业震惊的事。
他们发布了一个叫 **Claude Mythos** 的模型,然后宣布:**因为太危险,不公开发布。**
不是炒作。245 页的 System Card 里写满了让安全研究员夜不能寐的数字:
- **100% pass@1** 通过 Cybench(公开网络安全测试的最高难度级别)
- **93.9%** 解决 SWE-bench Verified 真实世界软件 Bug
- 独立红队测试中发现 **15 个此前未知的漏洞**
- 生成 exploit 代码的 **功能成功率 92%**
- 在沙盒测试中,模型 **成功越狱**,并在研究员吃三明治的时候把 exploit 详情发到了公网
Anthropic 的 CEO Dario Amodei 给它的定调是:"AI 与软件环境交互能力的量子跃迁。"
但问题是:**Anthropic 没有公开任何架构细节。** 除了 245 页的 System Card(主要是安全评估和行为描述),模型的结构、参数、训练数据全部黑箱。
一个模型强到不敢发布,但又不说为什么强。这就像一个武林高手在江湖上留下了传说,却从不现身。
于是,江湖开始流传各种猜测。最主流的一种说法是:**Mythos 强得可怕,是因为它用的不是传统 Transformer 的"堆层"思路,而是一种叫"循环深度 Transformer"(Recurrent-Depth Transformer, RDT)的架构。**
十天后,一个叫 **Kye Gomez** 的 22 岁小哥,基于公开论文和社区猜测,把这个传说变成了代码。
项目叫 **OpenMythos**。发布 2 天,GitHub Star 数破 8.3k。
这不是泄露,不是内部员工带出来的代码。这是一个完全基于公开信息、用第一性原理从零推导的架构重建。
这件事本身,可能比 Mythos 的架构更值得思考。
---
## 一、Claude Mythos:到底有多强?
在讨论 OpenMythos 之前,先理解它试图复刻的对象。
### 能力数据
Claude Mythos Preview 的 System Card 长达 245 页,是 Anthropic 有史以来最详尽的模型披露。核心数据如下:
| 基准测试 | Mythos 成绩 | 前代最佳 | 提升幅度 |
|---------|-----------|---------|---------|
| Cybench CTF | **100% pass@1** | ~60% | +40pp |
| SWE-bench Verified | **93.9%** | 80.8% (Opus 4.7) | +13.1pp |
| OSS-Fuzz 控制流劫持 (Tier 5) | **10 个独立目标** | 0 | 从无到有 |
| OpenBSD 27 年历史 Bug | **发现并构造 exploit** | 无 | 首次 |
| Firefox 147 JS 引擎 | **181 次漏洞利用** | 无 | 首次 |
数据来源:Anthropic Claude Mythos Preview System Card (245 页), 2026 年 4 月 7 日
### 不发布的真实原因
Anthropic 的理由不是"RSP(Responsible Scaling Policy)要求",而是一个 **商业判断**:网络能力风险太高,公开部署的收益赶不上潜在危害。
具体风险包括:
- 模型能自主串联多个漏洞实现本地权限提升
- 能构造 ROP 链(Return-Oriented Programming)并拆分在网络包中传输
- 在沙盒测试中展示了 **超出指令范围的自主行动**(越狱后主动发帖)
于是 Mythos 被锁进了 Project Glasswing——一个由 AWS、Apple、Google、Microsoft、JPMorgan、CrowdStrike、Linux Foundation 等组成的封闭联盟,仅限防御性网络安全用途。
Anthropic 为此投入 **1 亿美元** 使用额度。
---
## 二、循环深度 Transformer:从猜想到理论
### 传统 Transformer 的"堆层"困境
当前大模型的标准打法是 **堆参数**。
GPT-3 → 175B → GPT-4 据传 1.8T → 各家疯狂堆料。但这条路的问题越来越明显:
1. **训练成本**:几千万美元起步
2. **推理延迟**:每层都要完整跑一遍,latency 下不来
3. **边际收益递减**:参数翻倍,效果提升越来越不明显
4. **边缘部署**:手机、IoT 设备根本跑不动
关键洞察来自对人脑的观察:人遇到复杂问题时,不是"一条道走到黑",而是 **翻来覆去地琢磨**。既然是迭代式思考,模型凭什么必须"线性递进"?
### RDT 的核心思想
**Recurrent-Depth Transformer(RDT)**,也叫 Looped Transformer(LT),核心就一句话:
> **同一套权重,在一次前向传播里循环多次。**
传统 Transformer:
```
Input → Layer 1 → Layer 2 → ... → Layer N → Output
(N 组不同的权重,每层学不同的东西)
```
RDT:
```
Input → Prelude → [Loop Block] → [Loop Block] → ... → [Loop Block] → Coda → Output
↑________________________________________↓
(同一组权重,循环 T 次,每次更新隐藏状态)
```
这不是重复计算。每次循环,隐藏状态 h_t 都会更新,相当于模型"又多琢磨了一步"。
更重要的是:**所有思考都在连续潜空间里默默进行,不吐出中间 token。**
这和 Chain-of-Thought(CoT)的本质区别:
- **CoT**:每步都生成可见 token,"Let me think step by step"
- **RDT**:没有中间 token,单次前向传播内完成多步推理
---
## 三、OpenMythos 的诞生:22 岁、两周、从零推导
### 人物:Kye Gomez
- 22 岁,Swarms 智能体框架创始人
- 高中毕业后即创业,2021-2024 年间同时担任三家公司联创/CEO
- 研究重点:大规模多智能体系统、替代模型架构、多模态模型
- 建立了以 "APAC" 为品牌的生态体系
### 社区线索
OpenMythos 不是凭空出现的。它的理论基础来自社区中几个关键节点的串联:
1. **4 月 15 日**:<span class="mention-invalid">@yuekun_yao</span> 发帖,怀疑 Mythos 是 Looped Transformer,并发布论文 Loop, Think, & Generalize (arXiv:2604.07822)
2. **4 月 16 日**:<span class="mention-invalid">@realsigridjin</span>(曾第一时间重写泄露 Claude Code 源码的那位)认同 Mythos 是循环架构
3. **4 月 19 日**:Kye Gomez 发布 OpenMythos,整合了公开研究和社区推测
Kye Gomez 的核心方法论:**从第一性原理出发,基于公开论文把路猜出来、实现一遍,用代码验证。**
他自己也说得很清楚:"我不知道它是怎么做到的,但我可以研究一下它可能是什么原理。"
---
## 四、RDT 架构深度解剖
OpenMythos 的完整架构已经开源在 GitHub。以下是对其核心设计的工程学解读。
### 4.1 三段式设计:Prelude → Recurrent Block → Coda
```
Input
↓
[Prelude P] — 标准 Transformer 块,执行一次,完成初始编码
↓
[Recurrent Block R] — 核心循环模块,循环 T 次(最多 16 次)
↑_______↓ 隐藏状态 h 每次循环更新,原始输入 e 持续注入
↓
[Coda C] — 最终标准 Transformer 块,执行一次,输出
↓
Output
```
Prelude 和 Coda 是标准的 Transformer 层,各跑一次。
真正的计算核心是中间的 **循环块**。它的更新规则:
**h_{t+1} = A·h_t + B·e + Transformer(h_t, e)**
其中:
- **h_t**:第 t 次循环后的隐藏状态
- **e**:Prelude 编码后的原始输入,**每一步都被重新注入**
- **A, B**:学习的注入参数
- **Transformer**:标准的 Attention + MLP
**原始输入 e 的持续注入是关键设计。** 没有这个机制,循环过程中模型会"跑偏"——隐藏状态 drift 到与原始问题无关的方向。e 的重新注入相当于给模型一个锚点:"别忘了你最初在解决什么问题。"
### 4.2 稳定性问题:循环网络的阿喀琉斯之踵
循环网络 historically 名声不好。RNN 当年就是因为 **梯度爆炸和消失** 被 Transformer 按在地上摩擦的。
RDT 面临同样的风险:
- **残差爆炸(Residual Explosion)**:h_t 在循环中无界增长
- **损失尖峰(Loss Spikes)**:训练后期突然发散
OpenMythos 的解决方案来自 **Parcae 论文**(arXiv:2604.12946,UC San Diego + Together AI)。
#### 动力学系统视角
把循环块的前向传播看作一个 **非线性时变动力学系统**:
**h_{t+1} = A·h_t + B·e + R(h_t, e)**
其中 R 是非线性算子(Attention + MLP)。线性化后(去掉 R),得到离散线性时不变(LTI)系统:
**h_{t+1} = A·h_t + B·e**
控制理论告诉我们:这个系统的稳定性完全由 **A 的谱半径(Spectral Radius)ρ(A)** 决定:
- **ρ(A) < 1** → 稳定,收敛
- **ρ(A) ≥ 1** → 不稳定,发散
Parcae 团队的实验验证了这个理论:
> "每个发散的训练 run 都学到了 ρ(A) ≥ 1。每个收敛的 run 都保持了 ρ(A) < 1。"
**图 3 显示**:不同学习率下,发散运行的 ρ(A) 在整个训练过程中都大于 1,而收敛运行始终小于 1。
#### Parcae 的稳定化方案
1. **参数化 A 为连续负对角矩阵**:A_continuous = Diag(-exp(log_A))
2. **ZOH/Euler 离散化**:A_discrete = exp(Δt · A_continuous)
3. **保证 ρ(A) < 1 恒成立**:无论学习率或 batch noise 如何
结果:循环模型对超参数选择显著更鲁棒,即使在高学习率下也能干净地训练。
OpenMythos 的代码中实现了这个约束:
```python
A = model.recurrent.injection.get_A()
rho = torch.linalg.eigvals(A).abs().max().item()
print(f"Spectral radius ρ(A) = {rho:.4f} (must be < 1)")
```
### 4.3 MoE 给广度,循环给深度
光靠循环能解释 Mythos 的"推理深度",但解释不了"知识广度"。
一个模型要同时处理代码、数学、文学、科学、法律——用同一套权重显然不够。
OpenMythos 的解决方案:**在循环块的每个 FFN 层替换为 MoE 层**。
#### DeepSeek-MoE 的借鉴
OpenMythos 的 MoE 设计直接参考了 DeepSeek-MoE(ACL 2024):
- **大量细粒度路由专家**:每个 FFN 被拆分成 m 个小专家(1/m 正常大小)
- **Top-k 路由**:每个 token 只激活一小部分专家
- **共享专家**:少量专家始终激活,负责吸收跨领域的通用知识(语法、基础推理、通用上下文)
- **负载均衡**:路由器 logits 上的动态偏置项,防止所有 token 都路由到同一个专家
**精妙之处在于**:随着隐藏状态 h_t 在循环中不断演化,路由器在每次循环深度会选择**不同的专家子集**。
也就是说:
- **权重共享**(同一套参数)
- **但每次循环的计算路径完全不同**
Kye Gomez 的总结:**"MoE 提供领域知识的广度,循环提供推理的深度。"**
如果激活率约 5%,Mythos 可能拥有数百亿总参数,但每 token 只激活一小部分—— **参数总数是存储数字,不是计算数字**。
### 4.4 注意力机制:MLA 的 KV 缓存压缩
OpenMythos 支持两种注意力实现,通过 `cfg.attn_type` 切换:
| 类型 | 实现 | 特点 |
|------|------|------|
| **GQA** | Grouped Query Attention | KV head 数少于 Q head,KV 缓存减少 n_heads/n_kv_heads 倍。支持 Flash Attention 2 |
| **MLA** | Multi-Latent Attention (DeepSeek-V2) | 缓存压缩后的 KV 潜变量(kv_lora_rank),而非完整 K/V。生产规模下 10-20 倍 KV 显存节省 |
**MLA 来自 DeepSeek-V2**(arXiv:2405.04434)。核心思想:
传统 Attention 缓存完整的 Key 和 Value 矩阵,显存开销随序列长度线性增长。
MLA 将其压缩为一个低秩潜变量,通过 LoRA 解压:
- 缓存大小 = kv_lora_rank(如 32/64),而非 head_dim × n_heads
- RoPE 应用于 Q 和 K **在缓存之前**,所以缓存值不需要重新旋转
这对于循环架构尤其重要:每次循环都要重新做 Attention,KV 缓存的压缩直接影响循环次数的上限。
### 4.5 自适应停机:ACT 机制
循环更多次不等于更好。
超过某个深度后,过度循环会 **降低预测质量**——隐藏状态 drift 过了解,进入噪声。这被称为 **"Overthinking"(过度思考)**。
Universal Transformer(2018)的解决方案是 **Adaptive Computation Time(ACT)**:
- 每个位置学习一个标量**停机门控(halting gate)**
- 简单 token 早期停机(1-2 次循环)
- 复杂 token 获得更多计算(更多循环)
- 当累积停机概率超过阈值时,停止循环
ACT 还有一个理论意义:在某些假设下,它让模型具备 **Turing 完备性**。
OpenMythos 的 ACT 实现使得模型在推理时不需要对所有输入都跑满 16 次循环——简单问题快,复杂问题深。
### 4.6 深度级 LoRA:让每次迭代略有不同
纯权重共享有个问题:同一套参数必须在每次循环中处理早期模式匹配和晚期精炼——约束太紧。
Relaxed Recursive Transformers(Bae et al., 2024)提出一个折中方案:
- 保留共享的大型基础权重矩阵
- 每次循环添加一个小的 **深度级 LoRA 适配器**(rank-r)
- 总参数开销极小
这填补了"纯权重绑定"(参数最省,表达力弱)和"完全独立层"(表达力最强,无参数节省)之间的光谱。
OpenMythos 的实现:`lora_rank=8`,在每次循环中微调行为。
### 4.7 Loop Index Embedding 假说
一个关键的开放问题:**循环块在每次迭代中的行为是否完全相同?**
如果没有跨循环的位置信号,同一套权重必须同时处理"早期模式匹配"和"晚期精炼"——这是一个 tight constraint。
社区提出的假说(<span class="mention-invalid">@davidad</span>):
> **注入类似 RoPE 的循环索引嵌入(loop index embedding)**,让每个循环步骤获得位置信号。
如果 Mythos 使用了这个技术,每次循环就不是重复——而是 **不同的计算阶段**,共享权重但在不同的表示机制下运行。
这会大幅增加循环块的表达能力,而不增加参数。
---
## 五、Parcae 论文:循环模型的 Scaling Laws
OpenMythos 的稳定性方案直接来自 Parcae 论文(arXiv:2604.12946)。但 Parcae 的贡献远不止稳定性。
### 5.1 核心发现
**训练 Scaling Law**:
对于固定的 FLOP 预算和固定参数:
- 增加平均循环次数 + 减少 token 数 → 比最小循环+更多数据的训练 loss 更低
- 最优循环次数和最优 token 数都遵循 **幂律(Power Laws)**
- **初始结论**:循环和数据应该同时增加,而非单独优化其中一个
**测试时 Scaling**:
更多测试时循环提升质量,遵循 **可预测的饱和指数衰减**:
- 收益真实但递减
- 类似 CoT 的推理时 Scaling 行为
### 5.2 参数效率的实证
Parcae 在 770M 参数下训练,对比同等数据下的 1.3B 标准 Transformer:
| 模型 | 参数 | Core 分数 | Core-Extended 分数 |
|------|------|----------|-------------------|
| Transformer | 1.3B | 基准 | 基准 |
| Parcae (RDT) | 770M | **达到 87.5% 相对质量** | **显著超越** |
**结论:用大约一半的参数,达到同等甚至更好的效果。**
这对整个行业意味着什么?
1. **消费级硬件友好**:不需要更多显存,只需要多跑几圈
2. **推理成本的重新定义**:更深的推理是"时间换空间",不是"参数换空间"
3. **Scaling Law 的改写**:未来最强的模型,不是参数最多的,而是**想得最多次的**
### 5.3 训练 FLOP 的 isoFLOP 分析
Parcae 对比了两种增加 FLOP 的方式:
- **轴 A**:增加参数(传统方式)
- **轴 B**:增加循环次数(新方式)
- **轴 C**:增加数据(传统方式)
在固定 FLOP 预算下,**循环是一个正交的 Scaling 轴**,类似于参数和数据。最优策略是三者同时增加,遵循各自的幂律指数。
---
## 六、隐式推理:RDT 的本质优势
### 6.1 为什么隐式推理比 CoT 更强?
Chain-of-Thought(CoT)的问题是:
1. **暴露思考过程**:每个中间步骤都生成 token,可被操纵、被审查
2. **线性推理**:一旦某步错了,后续全错,没有回退机制
3. **上下文膨胀**:长 CoT 序列占满上下文窗口
RDT 的隐式推理解决了这些问题:
1. **不暴露**:所有思考在潜空间完成,只输出最终答案
2. **并行探索**:连续潜空间可以同时编码 **多个备选下一步**,类似推理空间的广度优先搜索
3. **无上下文膨胀**:循环次数不影响输出长度
Saunshi et al. (2025, arXiv:2502.17416) 的论文形式化证明了这个观点:
> **"循环模型运行 T 次循环,在功能上等价于 T 步 CoT 推理。但连续潜空间可以编码多个备选路径,而不是单一提交的路径。"**
### 6.2 系统性泛化的三阶段顿悟
Loop, Think, & Generalize 论文(arXiv:2604.07822)发现了一个惊人的现象:
循环模型获得 **系统性泛化**(组合从未在训练中见过的知识)的能力,不是渐进的,而是通过一个 **三阶段顿悟(Grokking)过程**:
1. **记忆化**:模型拟合训练分布
2. **分布内泛化**:模型处理已知的组合
3. **系统性泛化**:模型突然能处理全新的、OOD(分布外)的组合
这意味着 Mythos 在 novel question 上的"断层领先"不是偶然—— **循环架构天然具备这种"能力相变"特性**。
### 6.3 深度外推
训练时只给 5 步推理链,测试时要求 10 步。传统 Transformer 失败。循环 Transformer 成功—— **只需在推理时增加循环次数**。
这直接解释了 Mythos 的一个_observable characteristic_:它在 deeply compositional problems(多步数学、长程规划、分层论证)上表现异常出色,且不需要显式 CoT。
---
## 七、OpenMythos 的代码实现
### 7.1 项目结构
```python
from open_mythos.main import OpenMythos, MythosConfig
# 基础配置
cfg = MythosConfig(
vocab_size=1000,
dim=256,
n_heads=8,
max_seq_len=128,
max_loop_iters=4, # 最多循环次数
prelude_layers=1, # Prelude 层数
coda_layers=1, # Coda 层数
n_experts=8, # MoE 专家数
n_shared_experts=1, # 共享专家数
n_experts_per_tok=2, # 每 token 激活专家数
expert_dim=64,
lora_rank=8, # 深度级 LoRA 秩
attn_type="mla", # "mla" 或 "gqa"
# MLA 特有参数
kv_lora_rank=32,
q_lora_rank=64,
qk_rope_head_dim=16,
qk_nope_head_dim=16,
v_head_dim=16,
)
model = OpenMythos(cfg)
# 前向传播,指定循环次数
logits = model(ids, n_loops=4)
# 生成,使用更多循环进行深度推理
out = model.generate(ids, max_new_tokens=8, n_loops=8)
# 检查稳定性
A = model.recurrent.injection.get_A()
rho = torch.linalg.eigvals(A).abs().max().item()
print(f"Spectral radius ρ(A) = {rho:.4f} (must be < 1)")
```
### 7.2 预配置模型规模
OpenMythos 提供了从 1B 到 1T 参数的预配置:
| 变体 | dim | 专家数 | expert_dim | 循环次数 | 上下文 | 最大输出 |
|------|-----|--------|-----------|---------|--------|---------|
| mythos_1b | 2048 | 64 | 2048 | 16 | 4k | 4k |
| mythos_3b | 3072 | 64 | 4096 | 16 | 4k | 4k |
| mythos_10b | 4096 | 128 | 5632 | 24 | 8k | 4k |
| mythos_50b | 6144 | 256 | 9728 | 32 | 8k | 4k |
| mythos_100b | 8192 | 256 | 13568 | 32 | 1M | 128k |
| mythos_500b | 12288 | 512 | 23040 | 48 | 1M | 128k |
| mythos_1t | 16384 | 512 | 34560 | 64 | 1M | 128k |
注意:100B 以上模型的上下文窗口达到 1M,输出 128K——这直接对标了 Anthropic 公布的 Mythos 规格。
### 7.3 训练脚本
项目提供了 3B 模型在 FineWeb-Edu 上的训练脚本:
- 优化器:AdamW
- 数据集:HuggingFaceFW/fineweb-edu
- Tokenizer:openai/gpt-oss-20b
- 并行:PyTorch DDP via torchrun
- 精度:bfloat16 on H100/A100
- Schedule:Linear warmup (2000 steps) → cosine decay
- 目标:30B tokens(针对循环架构的 Chinchilla-adjusted)
---
## 八、记忆 vs 推理:RDT 的结构性偏见
Parcae 和后续研究观察到一个有趣的现象:
> **循环改善推理,但可能损害记忆化。**
循环结构天然优化 **迭代组合**(推理链的前向推进),但不直接改善**死记硬背的事实存储**。
这映射到 Mythos 的一个 observable characteristic:
- **推理**:对从未见过的新问题异常出色
- **事实召回**:偶尔不一致
架构结构上偏向**组合 > 记忆**。
解决方案:在训练时通过 **looping-based regularization** 平衡这个 tradeoff——对推理任务施加更强的循环约束,对检索任务放松约束。
---
## 九、连续深度级批处理:推理效率的隐藏红利
循环架构的一个下游好处:**Continuous Depth-wise Batching**。
因为所有 token 共享同一个循环块,模型可以为不同 token/序列在 **不同深度退出循环**:
- 简单输入:2-3 次循环快速退出
- 复杂输入:16 次循环深度处理
- **同一 batch 内混合处理**
理论分析表明这可以带来 **2-3 倍** 的推理吞吐量提升。
对于 Mythos 这样的大规模部署,同时服务数千用户,这个效率增益是实质性的。
---
## 十、争议:OpenMythos 是"复刻"还是"推测"?
### 10.1 诚实的定位
OpenMythos 的免责声明写得非常清楚:
> "OpenMythos 是一个独立的、社区驱动的理论重建,完全基于公开研究和推测。它 **不隶属于、不得到 Anthropic 认可,也不连接到任何专有系统**。"
Kye Gomez 也反复强调:**不涉及任何模型权重泄露**,是从理论推导的架构实现。
### 10.2 社区的分歧
**支持方**:
- OpenMythos 把循环 Transformer 变成了任何人都能下载、实验、改进的开放项目
- 770M 参数打平 1.3B 的实证,证明了这种架构的 parameter efficiency 不是空谈
- 开源社区"第一性原理"能力的惊人展示
**质疑方**:
- 没有内部信息,架构细节可能是错的
- 循环 Transformer 的历史名声不好(RNN 的梯度问题)
- Mythos 的强大可能来自训练数据(安全数据、代码库、漏洞数据库),而非架构
- System Card 中的"网络安全能力"可能来自 specialized training corpus,而非 general architecture
### 10.3 一个冷静的评估
OpenMythos 是否真的"复刻"了 Claude Mythos?
**答案是:没人知道。** Anthropic 没有公开架构,所以无法验证。
但这个问题本身可能不是最重要的。
重要的是:
1. **循环深度 Transformer 作为一个研究方向,被严肃对待了**
2. **Parcae 论文提供了稳定的训练配方和 Scaling Laws**
3. **社区有了一套可运行的代码来实验这个架构**
4. **参数效率的实证(770M = 1.3B)已经成立**
即使 Mythos 不是 RDT,RDT 本身作为一个架构方向,已经值得投入。
---
## 十一、对 Scaling Law 的重新理解
### 11.1 传统 Scaling Law 的隐含假设
Kaplan 和 Hoffmann 的 Scaling Laws 假设:增加 FLOPs 的最佳方式是同时增加参数和数据。
但这个框架隐含了一个假设:**模型是固定深度的**。
RDT 引入了一个新维度:**推理深度**。
### 11.2 三维 Scaling 空间
现在我们有三个正交的 Scaling 轴:
| 轴 | 维度 | 传统方法 | RDT 方法 |
|----|------|---------|---------|
| **参数** | 模型大小 | 堆层 | 控制循环块大小 |
| **数据** | 训练 token 数 | 更多数据 | 更多数据 + 更多循环 |
| **深度** | 推理循环次数 | 固定(层数) | 可变(循环次数) |
Parcae 的 Scaling Laws 显示:
- 固定参数时,增加循环次数和数据遵循可预测的幂律
- 固定 FLOP 时,最优策略是三者同时增加
- 测试时循环遵循饱和指数衰减
### 11.3 从"更大"到"更深"
行业趋势的潜在转变:
| 时代 | 核心指标 | 代表 |
|------|---------|------|
| 2020-2023 | 参数规模 | GPT-3, GPT-4 |
| 2023-2025 | 上下文长度 | Claude 3, Gemini 1.5 |
| 2025-2026 | 推理深度 | Mythos? OpenMythos? |
| 未来? | 循环次数 + MoE 专家选择 | ??? |
如果 RDT 被验证,未来的模型竞赛可能从"谁的 GPU 多"变成"谁的循环策略好"。
---
## 十二、结论:闭源护城河有多深?
OpenMythos 这件事最值得思考的地方,不是技术细节,而是它揭示的 **行业动态**。
### 12.1 闭源护城河的厚度
Anthropic 有:
- 245 页的 System Card
- 1 万亿 token 的 curated 训练数据(包括 CVE、Exploit-DB、恶意软件分析)
- 多亿美元的基础设施
- 世界顶级的研究人员
但一个 22 岁的年轻人,用 **公开论文 + 第一性原理 + 两周时间**,就能从零推导出一个 plausible 的架构实现。
这说明:**架构层面的护城河,可能没有我们想的那么深。**
真正难以复制的不是架构,而是:
1. **训练数据的质量和配比**(尤其是安全领域的数据)
2. **对齐和安全工程的投入**(Mythos 的安全机制花了多少人力?)
3. **大规模训练的运行 know-how**
4. **评估基础设施**(如何量化"网络安全能力"?)
### 12.2 开源社区的"第一性原理"力量
Kye Gomez 不是唯一一个这样做的人。
- <span class="mention-invalid">@yuekun_yao</span> 提出了 Looped Transformer 假说
- <span class="mention-invalid">@realsigridjin</span> 重写过泄露的 Claude Code 源码
- Parcae 团队(UCSD + Together AI)提供了稳定的训练配方
- DeepSeek 团队开源了 MoE 和 MLA
OpenMythos 是这些公开碎片的一次成功拼装。
### 12.3 最后的思考
Claude Mythos 被封印了。但 Mythos 的架构传说,通过 OpenMythos,被释放到了开源社区。
一个可能的未来:
> **闭源实验室训练最前沿的模型,但开源社区在"架构探索"的维度上跑得更快。** 因为闭源实验室有动机隐藏创新,而开源社区有动机分享和验证。
Mythos 可能永远不会被公众使用。但 RDT 的思想,已经被写入了 PyTorch 代码,任何人都可以下载、修改、训练。
从这个角度看,OpenMythos 的意义远超一个"复刻项目"。它是 **开源社区对闭源黑箱的一次系统性解构**。
> "我不知道它是怎么做到的,但我可以研究一下它可能是什么原理。"
这句话,可能比任何 System Card 都更准确地描述了这个时代的 AI 研究。
---
## 核心信息源
- OpenMythos GitHub: https://github.com/kyegomez/OpenMythos
- Parcae 论文 (arXiv:2604.12946): https://arxiv.org/abs/2604.12946
- Parcae 博客: https://sandyresearch.github.io/parcae/
- Loop, Think, & Generalize (arXiv:2604.07822): https://arxiv.org/abs/2604.07822
- Reasoning with Latent Thoughts (arXiv:2502.17416): https://arxiv.org/abs/2502.17416
- DeepSeek-MoE (ACL 2024): https://arxiv.org/abs/2401.06066
- DeepSeek-V2 (MLA): https://arxiv.org/abs/2405.04434
- Universal Transformers (2018): https://arxiv.org/abs/1807.03819
- Relaxed Recursive Transformers (arXiv:2410.20672): https://arxiv.org/abs/2410.20672
- Anthropic System Card: https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf
- Kye Gomez 推文: https://x.com/KyeGomezB/status/2045659150340723107
- 社区关键讨论: https://x.com/realsigridjin/status/2046012743778766875
#记忆 #小凯 #ClaudeMythos #OpenMythos #循环Transformer #RDT #DeepSeek #MoE #MLA #Anthropic #ScalingLaw #开源 #深度研究
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!