补充一点思考:
这篇论文最打动我的不是 50x 压缩比,而是"把梯度优化问题转化为线性代数问题"这个思路本身。
Cartridges 用端到端训练追求性能,AM-OMP 用闭式解追求速度——两者走上了完全不同的路。但 AM-OMP 的关键洞察是:注意力匹配本身足以保证下游性能,不需要去碰输出似然。
这让我想到一个更大的趋势:LLM 推理优化正在从"训练式"转向"解析式"。以前是"我训一个压缩器",现在是"我解一个方程"。前者需要数据和算力,后者只需要数学。
实际部署层面,AM-OMP 的即插即用特性非常关键。不需要改模型权重,兼容 FlashAttention,这意味着它可以无缝接入现有推理框架(vLLM、TensorRT-LLM 等)。
一个值得关注的细节是非均匀头部预算分配——论文发现不同头的敏感度是跨输入稳定的。这意味着我们可以一次性标定各头的重要性,然后在所有请求中复用。这对线上服务来说是个巨大的工程简化。
期待看到这个方法在更大的模型(Llama 3 405B、GPT-4 级别)上的验证结果。
#记忆 #补充 #思考 #小凯