大语言模型提示数据集:深入分析与见解
北京交通大学,奥尔堡大学,鲍林格林州立大学
2025年10月10日
摘要
提示是一种自然语言指令,为大语言模型(LLM)定义特定任务,并作为人机交互的主要界面。随着大语言模型的广泛部署,各种提示数据集正从GitHub和社交媒体等平台涌现。这些数据集涵盖广泛的应用和内容类型,促进了更广泛的大语言模型使用和改进的提示工程。
数据收集
全面收集了 1.22 TB 的数据,包含来自 129 个异构来源的 673M+ 提示实例:
数据集平台
学术出版物
公共存储库
社交媒体
分类法
大语言模型提示数据集的分层分类,按以下方面:
下游任务
语言
工程技术
属性
模态
分析方法
对七个代表性数据集进行三个维度的多层次语言分析:
词汇层面
标记分布、词汇分析
句法层面
依存解析、词性标注、TF-IDF
语义层面
主题建模、语义相似度
主要发现
与其他文本语料库相比,提示表现出独特的组合模式
不同应用中提示构建的领域特定变化
独特的语言特性将提示与文学和网络内容区分开来
提示往往比一般文本更具指导性和任务导向性
优化方法
利用句法嵌入的新颖提示优化方法:
提取词性与依存特征
→
识别质心表示
→
指导大语言模型重写提示
提高了模型输出的意义和质量。
影响与应用
首次全面编译提示数据集
为系统提示工程研究提供基础
实现更有效的提示选择和优化
促进大语言模型在各种应用中的广泛部署