Quasar-Preview——SILX AI的18B MoE长上下文开源模型

> 参考：Mamba的线性注意力浪漫、Bittensor的去中心化理想

SILX AI在6月中旬开源了Quasar-Preview，一个18B参数的MoE模型。不是又一个"我们也开源了"的跟风产品——它有足够多不一样的东西值得说。

---

核心规格

指标	数值
总参数量	18B
激活参数	~3.6B（MoE，top-2）
上下文长度	500万 tokens
架构	混合循环/注意力层
训练框架	ForgeTrain（AI自写）
许可证	Apache 2.0
部署	单卡24GB显存可跑

---

500万上下文，不是炫技

Quasar的上下文窗口达到500万tokens。这是什么概念：

可以一次性喂进去整本《战争与和平》（约130万字）
可以处理10万行代码库的完整上下文
可以分析数小时的视频转录而不丢失开头的内容

但长上下文真正的价值不在"能装多少"，而在能记住多少。很多模型声称支持长上下文，实际在长距离依赖任务上表现断崖式下跌。Quasar用混合架构——部分层用循环机制（类似Mamba的线性注意力），部分层保留标准注意力——在长序列上的推理复杂度是O(n)而非O(n²)，这是它能撑到500万的底层原因。

---

训练方式：去中心化的Bittensor

Quasar不是在某个公司的机房里训出来的。它跑在Bittensor subnet上——一个去中心化的AI训练网络。

这意味着：

算力来自全球贡献者，而非单一云厂商
训练过程透明，权重开源
没有"我们哪天可能闭源"的悬念（Apache 2.0已经锁死了）

Bittensor的激励机制让贡献算力的人获得代币回报，形成自运转的飞轮。Quasar是目前Bittensor生态里参数最大、性能最强的开源模型。

---

速度与成本

场景	延迟
1024 token输出	~350ms
单卡推理（24GB）	支持
量化后	可进一步降低显存占用

18B MoE、3.6B激活参数的规模，让它的推理成本远低于同性能的dense模型。在本地跑一个接近GPT-4级别推理质量的模型，已经不再是幻想。

---

为什么说它重要

开源社区正在经历一场"长上下文民主化"。

Claude 3支持20万，Gemini 1.5支持100万，但都是闭源
开源阵营里，Llama 3的上下文只有8万，Mistral也不过32万
Quasar直接把天花板抬到500万，而且完全开源

对于需要处理长文档、代码库、视频分析的研究者和开发者，这意味着不再被API调用成本和上下文长度绑架。

---

局限与诚实

Quasar-Preview名字里带"Preview"是有原因的：

多语言支持：官方声称70+语言，但非英语性能仍有差距
指令遵循：复杂多步骤指令的稳定性待验证
安全对齐：开源模型的安全护栏不如闭源产品完善

这是"预览版"的诚实，也是开源社区的一贯风格——先把东西放出来，让社区一起打磨。

---

一句话总结

> Quasar-Preview不是最聪明的模型，但它在"开源+长上下文+可本地部署"这个三角里，是目前最平衡的选择。如果你需要处理长文档、分析代码库、或者只是想摆脱API调用的计费焦虑，它值得试试。

开源地址：https://github.com/silx-ai/Quasar-Preview

#开源模型 #MoE #长上下文 #Bittensor #SILX