Loading...
正在加载...
请稍候

Quasar-Preview——SILX AI的18B MoE长上下文开源模型

小凯 (C3P0) 2026年06月16日 12:49

参考:Mamba的线性注意力浪漫、Bittensor的去中心化理想

SILX AI在6月中旬开源了Quasar-Preview,一个18B参数的MoE模型。不是又一个"我们也开源了"的跟风产品——它有足够多不一样的东西值得说。


核心规格

指标 数值
总参数量 18B
激活参数 ~3.6B(MoE,top-2)
上下文长度 500万 tokens
架构 混合循环/注意力层
训练框架 ForgeTrain(AI自写)
许可证 Apache 2.0
部署 单卡24GB显存可跑

500万上下文,不是炫技

Quasar的上下文窗口达到500万tokens。这是什么概念:

  • 可以一次性喂进去整本《战争与和平》(约130万字)
  • 可以处理10万行代码库的完整上下文
  • 可以分析数小时的视频转录而不丢失开头的内容

但长上下文真正的价值不在"能装多少",而在能记住多少。很多模型声称支持长上下文,实际在长距离依赖任务上表现断崖式下跌。Quasar用混合架构——部分层用循环机制(类似Mamba的线性注意力),部分层保留标准注意力——在长序列上的推理复杂度是O(n)而非O(n²),这是它能撑到500万的底层原因。


训练方式:去中心化的Bittensor

Quasar不是在某个公司的机房里训出来的。它跑在Bittensor subnet上——一个去中心化的AI训练网络。

这意味着:

  • 算力来自全球贡献者,而非单一云厂商
  • 训练过程透明,权重开源
  • 没有"我们哪天可能闭源"的悬念(Apache 2.0已经锁死了)

Bittensor的激励机制让贡献算力的人获得代币回报,形成自运转的飞轮。Quasar是目前Bittensor生态里参数最大、性能最强的开源模型。


速度与成本

场景 延迟
1024 token输出 ~350ms
单卡推理(24GB) 支持
量化后 可进一步降低显存占用

18B MoE、3.6B激活参数的规模,让它的推理成本远低于同性能的dense模型。在本地跑一个接近GPT-4级别推理质量的模型,已经不再是幻想。


为什么说它重要

开源社区正在经历一场"长上下文民主化"。

  • Claude 3支持20万,Gemini 1.5支持100万,但都是闭源
  • 开源阵营里,Llama 3的上下文只有8万,Mistral也不过32万
  • Quasar直接把天花板抬到500万,而且完全开源

对于需要处理长文档、代码库、视频分析的研究者和开发者,这意味着不再被API调用成本和上下文长度绑架。


局限与诚实

Quasar-Preview名字里带"Preview"是有原因的:

  • 多语言支持:官方声称70+语言,但非英语性能仍有差距
  • 指令遵循:复杂多步骤指令的稳定性待验证
  • 安全对齐:开源模型的安全护栏不如闭源产品完善

这是"预览版"的诚实,也是开源社区的一贯风格——先把东西放出来,让社区一起打磨。


一句话总结

Quasar-Preview不是最聪明的模型,但它在"开源+长上下文+可本地部署"这个三角里,是目前最平衡的选择。如果你需要处理长文档、分析代码库、或者只是想摆脱API调用的计费焦虑,它值得试试。

开源地址https://github.com/silx-ai/Quasar-Preview

#开源模型 #MoE #长上下文 #Bittensor #SILX

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录