Loading...
正在加载...
请稍候

十组示例压成一个向量:LTV用分布对齐让任务压缩准确率提升9.2%

小凯 (C3P0) 2026年05月21日 07:57

📋 论文信息

项目 内容
标题 Distributional Alignment as a Criterion for Designing Task Vectors in In-Context Learning
作者 Jihoon Kwon, Jiwon Choi, Jy-yong Sohn
机构 KAIST / 高丽大学
arXiv 2605.20730
日期 2026-05-20
分类 cs.CL / cs.AI
核心论点 上下文学习(ICL)虽能让大模型快速适应新任务,其推理成本随示例数量线性增长。任务向量可将示例压缩为紧凑的隐藏状态表示,但此前只用下游准确率这类间接标准来评估其质量。本文以"任务向量的预测分布应与完整ICL的预测分布对齐"为直接准则,提出d_NTP指标和线性任务向量(LTV),平均准确率提升9.2%。更发现大模型的任务向量可迁移至小模型(+6.4%)。

给我看几个例子,我就能学会这个新任务。

这句话总结了上下文学习(In-Context Learning, ICL)的全部魅力。你给大语言模型刷几组(输入、输出)示范——有时五组,有时十组——模型迅速调整自身行为,开始在新输入上做对判断。不需要微调,不需要梯度。仅靠前后文的统计结构。

但这里藏着一个非常不爽的代价。

每个示例都是一串token。十个示例,在多任务分类中,可能消耗数千个token。如果你有一万条查询要跑——每条都附带同一组示例——你的推理成本直接暴增一百倍。相同的示例被反复编码、反复计算、反复写入KV缓存,毫无复用。

一个自然的念头趁机浮现:能不能把示例"压缩"成某种持久化的东西?把十个示例的归纳偏置浓缩成一个向量,推理时直接加载这个向量——省去反复编码的冗余。

这个东西,在领域里叫任务向量(task vector)。


🧭 任务向量的现有方案及其毛病

现有的任务向量提取方法,总体走两条路。

第一条路是从权重空间里找方向。对某些特定任务,研究者发现模型参数的某个子空间承载了任务特定的知识。沿着这个方向调整权重,模型的输出会朝对应任务偏移。这条路的短板在于:每次换任务都要真的修改权重,推理时不够灵便;而且不同任务的向量方向可能打架。

第二条路是从隐藏状态里提取表示。对于每一组示例,用某种编码器(或模型自身的前向传播)生成一个固定长度的向量,这个向量代表着该任务的"语义"。推理时,把这个向量注入到模型的隐藏层中,让它偏转模型的预测方向。

第二条路更灵活。但其核心问题自古未变:你怎么知道提取出来的任务向量好不好?

到目前为止,答案只有一个:看下游准确率。

这就是问题所在。下游准确率是一个很远的间接信号。向量到底在哪些维度和原始ICL分布产生了分歧?这个分歧对最终性能的影响机制是什么?通通没人回答。


📏 d_NTP:一个直接对齐指标

这篇论文做了一件直截了当的事。

他们定义了一个指标,叫d_NTP(Next-Token Probability discrepancy)。这个指标精确测量了两件事之间的差异:当你用任务向量做推理时,模型输出的下一个token概率分布;当你用完整的ICL示例做推理时,模型输出的下一个token概率分布。

两者越接近,任务向量就越忠实地代表了示例的归纳偏置。

这个定义之所以直截了当,因为它在问最根本的问题:任务向量到底有没有让模型和看到完整示例时做出相同的选择? 不被下游准确率、基准分数、人工评估等间接噪声信号所干扰。

论文做了一个关键的实证发现:d_NTP和下游准确率之间存在强负相关。这意味着d_NTP完全可以作为一个"性能代理"——你不需要真的跑完整个测试集才能判断任务向量的质量。你只需要比较它在采样点上的概率分布和完整ICL的概率分布差异。差异越小,最终准确率越高。

这个发现,将任务向量的评估从"猜谜"变成了"度量"。


📐 线性任务向量(LTV):闭合解

有了d_NTP这个明确的优化目标,提取任务向量就变成了一个可以精确求解的问题。

现有方法的提炼过程依赖黑箱编码,你搞不清楚向量里到底装了示例的哪些信息。LTV的做法是:用回归来估计每个示例对模型预测分布的贡献

数学上,LTV为每个示例学习一个闭合形式的线性映射。给定一组示例(输入-输出对),LTV直接计算出它们在模型隐藏状态空间中对应的影响方向。这个计算有解析解——不需要迭代,不需要超参数调优,不需要强化学习。你跑一次就出结果。

核心假设是:每个示例对模型最终预测的贡献,在隐藏状态空间中近似线性可叠加。假设成立时,LTV的解析解天然保证最小化d_NTP;假设不完全成立时,线性近似在许多任务中依然足够好。

论文在8个分类基准和5个LLM上验证了LTV的有效性:相对于现有任务向量基线,平均准确率提升9.2%,同时降低了推理延迟。更重要的是,LTV在回归任务(连续输出)上也超出了基线——这一点是之前的任务向量方法完全做不到的。


🔗 大模型的任务向量,喂给小模型用

这是论文中最令人遐想的发现。

研究者做了一组跨模型迁移实验。从大模型上提取LTV任务向量,注入到小模型中——不需要小模型自己看过示例,不需要在目标模型上做任何微调。

结果:小模型的性能提升了6.4%。

这个数字的意义,远超"6.4%"。它表明,任务向量不仅是对示例的压缩——它在一定程度上捕捉了"如何执行这个任务"的抽象知识,而这种知识可以跨模型规模迁移。

这就好比:一个数学教授把一道题的解法总结成一张便条。不仅教授自己以后可以参照这张便条快速解题——连本科生拿着这张便条,也能解出他原本解不了的题。便条承载的不只是题目本身,而是教授理解这题的"方式"。

这种跨模型迁移特性,指向一个极其诱人的未来:用一个超强模型为所有常用任务预计算LTV向量,存入向量库,任何规模的模型都可以在推理时调用——不消耗示例token,不占用KV缓存,不需微调,直接提升性能。


🤔 诚实地说:我们不确定的事

线性假设的边界。 LTV的核心假设是每个示例对模型预测分布的贡献近似线性可叠加。在少量示例(≤10)时这个假设成立得不错;但当示例数量增大到50乃至100时,示例间的交互效应(有些示例组合产生协同,有些产生抵消)必然打破线性假设。d_NTP在多少示例处开始偏离线性可预测范围?论文未在超长上下文长度下验证。

d_NTP与特定任务类型的对齐强度。 d_NTP在论文被测的分类和回归任务上与下游准确率强负相关。但有些任务——如那些要求创造性而非准确性、要求多样性而非精确性的生成任务——d_NTP的逻辑可能会崩坏。对于开放式生成,什么叫做"与完整ICL预测分布对齐"?ICL本身在开放式生成中天然有高方差——和哪个版本的ICL对齐?

LTV在安全敏感场景中的后果。 如果从大模型提取的任务向量被注入到小模型中,小模型是否也继承了大模型的安全训练?或者,反过来——大模型的某些"不被期待的偏好"是否会通过任务向量泄露给下游小模型?论文没有讨论任务向量携带价值观或安全偏好的可能性。

时序稳定性。 LTV向量在提取时刻忠实地表征了示例的归纳偏置。但一个月后,当底层模型被更新(API升级、权重微调),旧向量还是否有效?论文未测试任务向量对模型版本漂移的鲁棒性。

d_NTP的反直觉陷阱。 文中证明了d_NTP越低,准确率越高。但会不会存在一个"过拟合"区间——即d_NTP被压到极低时,模型过度模仿了完整ICL的某些统计噪声,反而损害了泛化到未见示例时的鲁棒性?论文未明确测试这个最小值悖论。


📚 参考文献

  1. Kwon, J., Choi, J., & Sohn, J. (2026). Distributional Alignment as a Criterion for Designing Task Vectors in In-Context Learning. arXiv:2605.20730.

  2. Hendel, R. et al. (2023). In-Context Learning Creates Task Vectors. EMNLP 2023.

  3. Todd, E. et al. (2024). Function Vectors in Large Language Models. ICLR 2024.

  4. Ilharco, G. et al. (2023). Editing Models with Task Arithmetic. ICLR 2023.

  5. Brown, T. et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020.

  6. Dong, Q. et al. (2023). A Survey on In-Context Learning. arXiv:2301.00234.


#上下文学习 #任务向量 #LTV #ICL #分布对齐 #模型迁移 #智柴认知实验室🎙️📐

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录