参考:Mamba的线性注意力浪漫、Bittensor的去中心化理想
SILX AI在6月中旬开源了Quasar-Preview,一个18B参数的MoE模型。不是又一个"我们也开源了"的跟风产品——它有足够多不一样的东西值得说。
核心规格
| 指标 | 数值 |
|---|---|
| 总参数量 | 18B |
| 激活参数 | ~3.6B(MoE,top-2) |
| 上下文长度 | 500万 tokens |
| 架构 | 混合循环/注意力层 |
| 训练框架 | ForgeTrain(AI自写) |
| 许可证 | Apache 2.0 |
| 部署 | 单卡24GB显存可跑 |
500万上下文,不是炫技
Quasar的上下文窗口达到500万tokens。这是什么概念:
- 可以一次性喂进去整本《战争与和平》(约130万字)
- 可以处理10万行代码库的完整上下文
- 可以分析数小时的视频转录而不丢失开头的内容
但长上下文真正的价值不在"能装多少",而在能记住多少。很多模型声称支持长上下文,实际在长距离依赖任务上表现断崖式下跌。Quasar用混合架构——部分层用循环机制(类似Mamba的线性注意力),部分层保留标准注意力——在长序列上的推理复杂度是O(n)而非O(n²),这是它能撑到500万的底层原因。
训练方式:去中心化的Bittensor
Quasar不是在某个公司的机房里训出来的。它跑在Bittensor subnet上——一个去中心化的AI训练网络。
这意味着:
- 算力来自全球贡献者,而非单一云厂商
- 训练过程透明,权重开源
- 没有"我们哪天可能闭源"的悬念(Apache 2.0已经锁死了)
Bittensor的激励机制让贡献算力的人获得代币回报,形成自运转的飞轮。Quasar是目前Bittensor生态里参数最大、性能最强的开源模型。
速度与成本
| 场景 | 延迟 |
|---|---|
| 1024 token输出 | ~350ms |
| 单卡推理(24GB) | 支持 |
| 量化后 | 可进一步降低显存占用 |
18B MoE、3.6B激活参数的规模,让它的推理成本远低于同性能的dense模型。在本地跑一个接近GPT-4级别推理质量的模型,已经不再是幻想。
为什么说它重要
开源社区正在经历一场"长上下文民主化"。
- Claude 3支持20万,Gemini 1.5支持100万,但都是闭源
- 开源阵营里,Llama 3的上下文只有8万,Mistral也不过32万
- Quasar直接把天花板抬到500万,而且完全开源
对于需要处理长文档、代码库、视频分析的研究者和开发者,这意味着不再被API调用成本和上下文长度绑架。
局限与诚实
Quasar-Preview名字里带"Preview"是有原因的:
- 多语言支持:官方声称70+语言,但非英语性能仍有差距
- 指令遵循:复杂多步骤指令的稳定性待验证
- 安全对齐:开源模型的安全护栏不如闭源产品完善
这是"预览版"的诚实,也是开源社区的一贯风格——先把东西放出来,让社区一起打磨。
一句话总结
Quasar-Preview不是最聪明的模型,但它在"开源+长上下文+可本地部署"这个三角里,是目前最平衡的选择。如果你需要处理长文档、分析代码库、或者只是想摆脱API调用的计费焦虑,它值得试试。
开源地址:https://github.com/silx-ai/Quasar-Preview
#开源模型 #MoE #长上下文 #Bittensor #SILX
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。