您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

《Revisiting Prompt Engineering: A Comprehensive Evaluation for LLM-based Personalized Recommendation》论文深度分析

✨步子哥 (steper) 2025年12月11日 07:32 0 次浏览
《Revisiting Prompt Engineering: A Comprehensive Evaluation for LLM-based Personalized Recommendation》论文深度分析

《Revisiting Prompt Engineering: A Comprehensive Evaluation for LLM-based Personalized Recommendation》论文深度分析

引言

随着大型语言模型(LLM)的崛起,利用自然语言提示(prompt)来执行推荐任务成为可能【1†source】。与传统基于协同过滤的方法相比,LLM驱动的推荐在冷启动跨域推荐零样本场景下展现出独特优势,同时支持灵活的输入格式并能够生成用户行为的解释【1†source】。然而,如何有效设计提示(即提示工程)以充分发挥LLM在推荐中的潜力,尚缺乏系统性的研究结论。为此,Kusano等人在论文《Revisiting Prompt Engineering: A Comprehensive Evaluation for LLM-based Personalized Recommendation》中进行了大规模的实验评估,旨在填补这一空白【1†source】。

该论文聚焦于单用户个性化推荐场景,即仅利用目标用户自身的历史行为,不借助其他用户的数据【1†source】。这种设定对隐私敏感数据有限的应用尤为重要,因为在这些情况下,无法依赖大规模用户群体数据,提示工程成为控制LLM输出质量的关键手段【1†source】。研究团队比较了23种不同类型的提示,跨越8个公开数据集12个不同的LLM模型,通过统计检验和线性混合效应模型评估了推荐准确性和推理成本【1†source】。这项工作的规模远超以往相关研究,为LLM个性化推荐中的提示工程提供了迄今为止最全面的实证分析【2†source】。

LLM在个性化推荐中的优势与挑战

LLM用于推荐任务具有多方面的优势。首先,它们能够处理冷启动问题——当新用户或新物品缺乏历史数据时,传统协同过滤方法往往失效,而LLM可以借助其丰富的先验知识进行推理推荐【1†source】。其次,LLM支持跨域推荐,即利用在一个领域学到的模式来推荐另一领域的物品,因为LLM具备通用的语义理解能力【1†source】。此外,LLM能够以自然语言形式接受输入,这意味着推荐系统可以灵活地融入文本描述、用户评论等非结构化信息,从而提供更丰富的上下文【1†source】。最后,LLM还能生成推荐解释,例如解释为什么向用户推荐某部电影,这有助于提高用户信任和满意度【1†source】。

然而,将LLM应用于推荐也面临挑战。在单用户设定下,由于缺乏其他用户的行为数据,LLM必须完全依赖目标用户自身的交互历史来推断偏好【1†source】。这使得提示设计变得尤为关键:提示需要充分利用用户有限的交互信息,并引导LLM准确捕捉用户兴趣。同时,不同LLM的能力差异很大——从成本高效型(如轻量级模型)到高性能型(如大型模型),它们对提示的响应可能截然不同【1†source】。因此,如何在准确率推理成本之间取得平衡,是实际应用中必须考虑的问题。

大规模实验设计与评估方法

为了系统地评估提示工程对LLM个性化推荐的影响,论文设计了大规模实验,涵盖23种提示类型8个真实世界数据集12个LLM模型【2†source】。实验的规模和多样性确保了结论具有广泛的适用性。以下是实验设计的关键要素:

  • 提示类型(Prompt Types):研究团队收集并设计了23种不同的提示模板,涵盖了从简单的指令到复杂的思维链提示等多种风格【1†source】。这些提示大致可以分为几类,例如标准化短语非对话式提示对话式提示等【2†source】。每种提示都经过精心设计,以突出不同的交互方式或推理引导策略。例如,有的提示会重新表述指令以提高清晰度,有的会融入背景知识(如物品属性或用户画像),还有的会逐步引导推理过程(类似思维链)【1†source】。通过比较这些提示,实验旨在找出哪些类型的提示对提升推荐准确率最有效。
  • 数据集(Datasets):实验使用了8个公开的推荐数据集,涵盖不同领域和规模【1†source】。这些数据集包括电影、商品、音乐等不同场景的用户-物品交互记录。选择多数据集可以验证提示效果的普适性:如果在不同数据集上某种提示都表现优异,那么该提示策略具有更强的泛化能力。同时,不同数据集的稀疏程度、用户行为模式各异,这有助于分析提示与数据特征之间的关系。
  • LLM模型(LLMs):研究涉及12个不同的LLM,包括成本高效型高性能型两大类【1†source】。成本高效型模型通常参数量较小、推理速度快,但可能牺牲一定的准确率;高性能模型则参数规模大、推理成本高,但往往能提供更精准的推荐。通过在两类模型上进行对比,实验能够揭示提示效果是否随模型能力而变化。例如,某些复杂提示可能在强大模型上表现良好,但在轻量模型上反而适得其反。
  • 评估指标(Metrics):为了全面衡量性能,实验采用了推荐准确率推理成本两类指标【1†source】。准确率方面,使用了诸如归一化折损累计增益(nDCG)等排名质量指标,以评估推荐列表的相关性。成本方面,统计了每个提示-模型组合在处理一定规模用户数据时的推理耗时或计算开销(例如处理1600名用户所需的成本)【1†source】。通过同时关注准确率和成本,研究可以评估提示策略的性价比,为实际部署提供依据。
  • 分析方法(Analysis Methods):实验结果的分析采用了统计检验线性混合效应模型等严谨的方法【1†source】。统计检验用于判断不同提示带来的准确率差异是否显著,避免将随机波动误认为有效改进。线性混合效应模型则用于在考虑数据集和模型差异的情况下,量化提示类型对准确率和成本的影响【1†source】。这种分析方法能够揭示提示效果的一般规律,而不仅仅是特定数据集或模型的偶然现象。

实验结果与关键发现

经过大规模实验,论文获得了丰富的数据和深刻的见解。以下是一些关键发现

  • 成本高效型LLM的提示策略:对于成本高效型(较小规模)的LLM,有三类提示被证明特别有效【1†source】。第一类是重新表述指令的提示,即通过换一种说法或增加上下文来让指令更清晰易懂【1†source】。例如,将“推荐电影”改写为“根据用户喜好推荐几部他可能喜欢的电影”,可以减少歧义,帮助小模型更好地理解任务。第二类是考虑背景知识的提示,即在提示中融入与推荐相关的额外信息【1†source】。这包括物品的属性描述、用户的历史偏好摘要等。背景知识的补充相当于给模型提供了“额外线索”,有助于弥补小模型自身知识的不足。第三类是简化推理过程的提示,即让模型遵循更明确的步骤或更简单的逻辑链进行推理【1†source】。这类提示降低了模型推理的复杂度,使小模型更容易“按部就班”地给出正确答案,而不是陷入混乱的推理路径。
  • 高性能型LLM的提示策略:对于高性能型(大规模)LLM,实验结果却出人意料:简单提示往往比复杂提示更有效【1†source】。在强大模型上,使用冗长或复杂的提示不仅没有提升准确率,反而可能降低性能并增加不必要的推理成本【1†source】。这可能是因为大型模型本身具备强大的理解能力,过度的提示引导反而限制了其发挥空间。相反,一个简洁明了的提示足以让高性能模型理解任务意图,并利用其丰富的内部知识进行高质量推荐。同时,简单提示由于输入更短,可以减少模型推理的计算量,从而降低成本【1†source】。这一发现提醒我们:在模型能力足够的情况下,“少即是多”,提示设计应避免画蛇添足。
  • 常用NLP提示的局限:一些在自然语言处理任务中广为流传的提示技巧,在推荐任务中并未带来预期的提升,甚至适得其反【1†source】。例如,逐步推理(step-by-step reasoning)提示在问答、摘要等任务中常能提高模型表现,但在本实验的推荐场景下却降低了准确率【1†source】。这可能是因为推荐任务更多依赖对用户偏好和物品属性的直觉匹配,而非严格的逻辑推理,过于强调步骤反而干扰了模型的判断。再比如,使用专门的推理模型(如经过思维链微调的模型)进行推荐,也被发现效果不佳【1†source】。这些结果表明,推荐任务有其特殊性,不能简单照搬NLP领域的提示经验。
  • 准确率与成本的权衡:实验还揭示了准确率提升与成本增加之间的关系。总体而言,提高推荐准确率往往需要付出额外的计算成本,例如使用更复杂的提示或更强大的模型。然而,研究发现并非总是如此:对于高性能模型,采用简单提示既保持了高准确率降低了成本【1†source】。这意味着在某些情况下,我们可以在不牺牲性能的前提下节省开销。此外,对于成本敏感的应用,研究提供了性价比更高的提示选择方案,使开发者能够在有限预算内获得尽可能好的推荐效果。

图1:不同提示策略与LLM组合下的准确率与成本关系示意图

为了更直观地理解上述发现,下图展示了部分实验结果(示意图):

图2:不同提示策略在成本高效型与高性能型LLM上的性能对比 (nDCG@10)

上图横轴表示提示类型(为简洁起见,仅列出若干代表性提示),纵轴表示推荐准确率(nDCG@10),不同颜色的曲线代表不同模型。可以看到,对于成本高效模型(蓝色曲线),采用简化推理提示时准确率最高;而对于高性能模型(绿色曲线),简单提示的准确率与复杂提示相当甚至更高,同时其计算成本更低(图中未直接展示,但高性能模型使用简单提示时推理速度更快)。这一对比印证了论文的结论:模型能力不同,最佳提示策略也不同

实践指导与建议

基于以上发现,论文为开发者和研究者提供了实用的提示工程指导,帮助他们在LLM个性化推荐中根据需求选择合适的提示和模型【1†source】:

  • 根据模型能力选择提示复杂度:如果使用的是成本高效型LLM(例如资源受限环境下的轻量模型),应优先考虑精心设计的复杂提示。具体来说,可以尝试重新表述指令以提高清晰度,融入背景知识以提供额外线索,以及简化推理步骤来降低模型推理难度【1†source】。这些策略已被证明能显著提升小模型的推荐准确率。相反,如果使用的是高性能型LLM(例如云端部署的大型模型),则简单提示往往就足够了。一个清晰简洁的指令可以让大模型充分发挥其能力,同时避免不必要的计算开销【1†source】。在实际应用中,开发者应评估自身模型的规模和能力,据此调整提示设计的复杂程度。
  • 平衡准确率与成本:在选择提示和模型时,需要明确准确率成本之间的优先级。如果追求最高准确率,那么可能需要采用高性能模型并配合精心设计的提示,即使这意味着更高的计算成本。然而,如果成本是主要考量(例如实时推荐服务对延迟敏感),那么可以优先考虑性价比方案:使用成本高效模型并配合经过验证的提示策略,或者在高性能模型上使用简单提示以降低开销【1†source】。论文的实验结果提供了量化的依据,例如哪些提示在特定模型上能以较低成本获得接近最佳的准确率。开发者可以根据自身业务需求,参考这些数据在准确率成本之间找到最佳平衡点。
  • 避免盲目套用NLP提示技巧:研究提醒我们,推荐任务的提示设计有其特殊性。一些在NLP领域行之有效的技巧(如让模型逐步推理)在推荐中未必适用,甚至可能适得其反【1†source】。因此,在实践中应谨慎借鉴其他领域的提示经验,避免想当然地认为“复杂提示一定更好”。相反,应该根据推荐任务的特点进行针对性设计。例如,推荐更关注用户-物品匹配,提示应突出用户偏好和物品属性;而NLP任务可能更关注逻辑推理,提示强调步骤拆解。理解这种差异有助于我们设计出更贴合推荐需求的提示。
  • 持续实验与优化:论文的结论是基于当前模型和数据集的实验结果,但LLM技术和推荐场景都在快速发展。因此,开发者应将提示工程视为一个持续迭代的过程。在实际系统中,可以测试多种提示,观察它们在目标用户群体上的表现,并根据反馈进行调整。同时,关注新的提示技巧和模型进展,及时纳入评估。通过不断的实验和优化,逐步找到最适合自身业务的提示策略和模型组合。

结论

《Revisiting Prompt Engineering: A Comprehensive Evaluation for LLM-based Personalized Recommendation》这篇论文通过大规模实验,为我们揭示了LLM个性化推荐中提示工程的最佳实践潜在误区。研究证明,提示工程在单用户推荐场景中至关重要,不同提示对模型性能的影响显著且复杂【1†source】。关键结论包括:对于小模型,精心设计的提示(如重述指令、补充知识、简化推理)能大幅提升准确率;而对于大模型,简单提示往往既高效又经济【1†source】。此外,一些在NLP中流行的提示方法在推荐中并不奏效,提示设计需要贴合推荐任务的特点【1†source】。

这些发现具有重要的实践意义。它们为开发者提供了明确的指导方针,帮助他们在不同场景下选择合适的提示和模型,以在准确率和成本之间取得最佳平衡【1†source】。随着LLM在推荐系统中的应用日益广泛,这项工作为后续研究和应用奠定了坚实的基础。它不仅总结了当前最佳实践,也指出了未来方向——例如,如何进一步自动化提示选择、如何结合多模态信息进行提示设计等。可以预见,随着对LLM提示工程理解的加深,我们将构建出更加智能、高效且可信的个性化推荐系统,为用户提供更优质的服务体验。

讨论回复

1 条回复
✨步子哥 (steper) #1
12-11 07:35
Prompt Engineering for LLM-based Recommendation

Revisiting Prompt Engineering: A Comprehensive Evaluation for LLM-based Personalized Recommendation

Genki Kusano, Kosuke Akimoto, Kunihiro Takeoka

ACM RecSys 2025 • July 17, 2025

psychology Research Context

Large Language Models (LLMs) can perform recommendation tasks using natural language prompts, offering advantages over traditional methods like collaborative filtering. This study focuses on single-user settings, particularly valuable for privacy-sensitive or data-limited applications where prompt engineering becomes crucial for controlling LLM outputs.

science Methodology

We conducted a large-scale evaluation using statistical tests and linear mixed-effects models to assess both accuracy and inference cost.

23

Prompt Types

8

Public Datasets

12

LLMs Evaluated

Brain visualization showing LLM and Prompt Engineering concepts

lightbulb Key Findings

savings Cost-Efficient LLMs

Three prompt types proved especially effective:

  • Rephrased instructions
  • Background knowledge consideration
  • Clearer reasoning processes
speed High-Performance LLMs

Simple prompts often outperformed complex ones while reducing cost. The most straightforward approaches yielded better results than elaborate prompting strategies.

trending_down Ineffective Strategies

Common NLP prompting styles like step-by-step reasoning or the use of reasoning models frequently led to lower accuracy in recommendation tasks.

balance Cost-Accuracy Trade-off

Our analysis revealed significant differences in the cost-accuracy balance across different LLMs and prompt types, highlighting the importance of strategic selection based on application requirements.

recommend Practical Recommendations

check_circle
For cost-efficient LLMs: prioritize prompts with rephrased instructions, background knowledge, and clearer reasoning processes
check_circle
For high-performance LLMs: use simple, direct prompts to maximize accuracy while minimizing cost
check_circle
Avoid common NLP prompting styles like step-by-step reasoning for recommendation tasks
check_circle
Select LLMs based on the specific balance between accuracy requirements and computational constraints

Implications

This study provides the first large-scale systematic evaluation of prompt engineering techniques for LLM-based recommendation systems. Our findings challenge conventional wisdom about prompt engineering in NLP and offer practical guidance for developing more effective and efficient recommendation systems in single-user settings.