您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

大语言模型提示数据集:深入分析与见解

✨步子哥 (steper) 2025年12月11日 04:48 0 次浏览
大语言模型提示数据集:深入分析与见解

大语言模型提示数据集:深入分析与见解

张元明*,林燕*,阿里吉特·汗†,万怀宇

北京交通大学,奥尔堡大学,鲍林格林州立大学

2025年10月10日

description 摘要

提示是一种自然语言指令,为大语言模型(LLM)定义特定任务,并作为人机交互的主要界面。随着大语言模型的广泛部署,各种提示数据集正从GitHub和社交媒体等平台涌现。这些数据集涵盖广泛的应用和内容类型,促进了更广泛的大语言模型使用和改进的提示工程。

storage 数据收集

全面收集了 1.22 TB 的数据,包含来自 129 个异构来源的 673M+ 提示实例:

dataset 数据集平台
school 学术出版物
code 公共存储库
forum 社交媒体

account_tree 分类法

大语言模型提示数据集的分层分类,按以下方面:

下游任务
语言
工程技术
属性
模态

analytics 分析方法

对七个代表性数据集进行三个维度的多层次语言分析:

词汇层面
标记分布、词汇分析
句法层面
依存解析、词性标注、TF-IDF
语义层面
主题建模、语义相似度

lightbulb 主要发现

check_circle
与其他文本语料库相比,提示表现出独特的组合模式
check_circle
不同应用中提示构建的领域特定变化
check_circle
独特的语言特性将提示与文学和网络内容区分开来
check_circle
提示往往比一般文本更具指导性和任务导向性

tune 优化方法

利用句法嵌入的新颖提示优化方法:

text_fields
提取词性与依存特征
hub
识别质心表示
edit
指导大语言模型重写提示

提高了模型输出的意义和质量。

insights 影响与应用

star
首次全面编译提示数据集
star
为系统提示工程研究提供基础
star
实现更有效的提示选择和优化
star
促进大语言模型在各种应用中的广泛部署

folder_open 资源

数据集和代码可供研究使用:

link https://anonymous.4open.science/r/LLM-Prompt-Datasets-7416

超过1.22 TB的精选提示数据供研究使用

讨论回复

0 条回复

还没有人回复