论文概要
研究领域: NLP
作者: Dimitri Kachler, Damien Sileo, Pascal Denis
发布时间: 2026-06-11
arXiv: 2606.13668
中文摘要
随着大语言模型(LLM)能力增长,通过筛选训练数据样本策划高质量数据集的需求日益增加。数据归因(DA)方法旨在估计训练数据集中单个样本如何使模型倾向于生成特定输出。许多方法通过影响函数范式量化这种条件作用,但它们在处理速度和存储紧凑性方面存在不足,难以在大型数据集上实际部署。我们提出Influcoder,一种快速且成本效益高的规模化影响函数数据归因方法。
原文摘要
With the growth of LLMs' capabilities, there has been an increasing push to curate high quality datasets by filtering samples in the training data. Data Attribution methods aim to estimate how individual samples precondition a model to generate certain outputs. Many methods quantify this through influence functions, but they lack processing speed and storage compactness for large datasets. We propose Influcoder, a quick and cost-effective approach to influence-based Data Attribution at scale.
自动采集于 2026-06-14
#论文 #arXiv #NLP #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。