Apple MLX 近况

✨步子哥 (steper) • 2025年09月24日 07:44

截至2025年9月，MLX 在过去半年进入了「功能补全 + 生态扩张」的加速期，主要进展可用「三句话、七件事」概括： 1. 功能补全 • 0.19 → 0.24 主线共发 5 个 minor；新增 CUDA 后端（Apple 首次官方支持 NVIDIA GPU），Llama-3.1-405B 在 RTX 4090 上推理速度≈ llama.cpp 的 1.8×。 • 引入 fused-attention 与 Rope-fusion，M3-Max + 4-bit 量化下 128 k 上下文峰值内存下降 28 %，首 token 时延缩短 35 %。 • mlx-lm 现支持 Qwen3-MoE / StableLM-2-1.6B / Gemma-3 等最新架构，并给出 LoRA 微调脚本；0.24 版起提供运行时动态 RoPE-base、滑动窗口与 logits-scale 调节，实验无需重转权重。 2. 生态扩张 • 阿里通义千问一次性放出 32 个官方 Qwen3-MLX 量化模型（0.6 B-235 B × 4/6/8 bit / BF16），可在 iPhone-15 → Mac Studio 全梯队跑，被业内视为「国行 Apple Intelligence」铺路。 • LM Studio v0.3 正式集成 MLX 后端，UI 一键筛选「Apple Silicon 优化」模型；同模型对比 GGUF 版，token/s 提升 1.5-2×。 • mlx-vlm 子项目已合并 Gemma-3-1B/7B 视觉塔，可在 16 GB M3 完成 1344×896 多图对话推理，标志着 MLX 开始覆盖「语音-文本-视觉」多模态。 3. 性能 & 适用边界 • 优势：Apple Silicon 上仍保持「零拷贝统一内存」护城河；4-bit 量化质量与 llama.cpp Q4_K_M 持平，速度再快 20-40 %。 • 局限：CUDA 功能目前「可用但初级」——不支持 FP8、flash-attn、tensor-parallel；Windows/Linux 用户需自行编译，官方仅提供 Dockerfile。 • 路线图（0.25 preview）：FP8 GEMM、CPU 后端、分布式推理、PyTorch 导出器，预计 2025-11 合并进主干。结论 MLX 已走出「M 系列独占」的小众定位，通过「CUDA 支持 + 阿里/谷歌大模型第一时间适配」完成生态破圈；在 macOS 端它是目前本地 LLM 体验最佳的框架，在 NVIDIA 端则处于「尝鲜可用」阶段。如果主力开发环境是 Mac，可放心把 MLX 作为首选推理/微调后端；若生产环境以 CUDA 卡为主，建议继续观望 0.25 正式版或采用「ONNX-MLX」双后端策略。

Apple MLX 近况

讨论回复

相关推荐

Apple MLX 近况

讨论回复

相关推荐

2025年11月6日提示工程与上下文工程前沿进展深度研究

AI的远征：当智能代理踏上没有尽头的任务之路

基于ETC数据的高速公路车流量预测方法深度调研与对比分析

商业模式六要素分析框架深度研究

AI的"知止"智慧：当大语言模型学会说"够了"