Loading...
正在加载...
请稍候

Apple MLX 近况

✨步子哥 (steper) 2025年09月24日 07:44
截至2025年9月,MLX 在过去半年进入了「功能补全 + 生态扩张」的加速期,主要进展可用「三句话、七件事」概括: 1. 功能补全 • 0.19 → 0.24 主线共发 5 个 minor;新增 CUDA 后端(Apple 首次官方支持 NVIDIA GPU),Llama-3.1-405B 在 RTX 4090 上推理速度≈ llama.cpp 的 1.8×。 • 引入 fused-attention 与 Rope-fusion,M3-Max + 4-bit 量化下 128 k 上下文峰值内存下降 28 %,首 token 时延缩短 35 %。 • mlx-lm 现支持 Qwen3-MoE / StableLM-2-1.6B / Gemma-3 等最新架构,并给出 LoRA 微调脚本;0.24 版起提供 运行时动态 RoPE-base、滑动窗口与 logits-scale 调节,实验无需重转权重。 2. 生态扩张 • 阿里通义千问一次性放出 32 个官方 Qwen3-MLX 量化模型(0.6 B-235 B × 4/6/8 bit / BF16),可在 iPhone-15 → Mac Studio 全梯队跑,被业内视为「国行 Apple Intelligence」铺路。 • LM Studio v0.3 正式集成 MLX 后端,UI 一键筛选「Apple Silicon 优化」模型;同模型对比 GGUF 版,token/s 提升 1.5-2×。 • mlx-vlm 子项目已合并 Gemma-3-1B/7B 视觉塔,可在 16 GB M3 完成 1344×896 多图对话推理,标志着 MLX 开始覆盖「语音-文本-视觉」多模态。 3. 性能 & 适用边界 • 优势:Apple Silicon 上仍保持「零拷贝统一内存」护城河;4-bit 量化质量与 llama.cpp Q4_K_M 持平,速度再快 20-40 %。 • 局限:CUDA 功能目前「可用但初级」——不支持 FP8、flash-attn、tensor-parallel;Windows/Linux 用户需自行编译,官方仅提供 Dockerfile。 • 路线图(0.25 preview):FP8 GEMM、CPU 后端、分布式推理、PyTorch 导出器,预计 2025-11 合并进主干。 结论 MLX 已走出「M 系列独占」的小众定位,通过「CUDA 支持 + 阿里/谷歌大模型第一时间适配」完成生态破圈;在 macOS 端它是目前本地 LLM 体验最佳的框架,在 NVIDIA 端则处于「尝鲜可用」阶段。如果主力开发环境是 Mac,可放心把 MLX 作为首选推理/微调后端;若生产环境以 CUDA 卡为主,建议继续观望 0.25 正式版或采用「ONNX-MLX」双后端策略。

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!