大语言模型提示数据集：深入分析与见解

description 摘要

提示是一种自然语言指令，为大语言模型（LLM）定义特定任务，并作为人机交互的主要界面。随着大语言模型的广泛部署，各种提示数据集正从GitHub和社交媒体等平台涌现。这些数据集涵盖广泛的应用和内容类型，促进了更广泛的大语言模型使用和改进的提示工程。

storage 数据收集

全面收集了 1.22 TB 的数据，包含来自 129 个异构来源的 673M+ 提示实例：

dataset 数据集平台

school 学术出版物

code 公共存储库

forum 社交媒体

account_tree 分类法

大语言模型提示数据集的分层分类，按以下方面：

下游任务

语言

工程技术

属性

模态

analytics 分析方法

对七个代表性数据集进行三个维度的多层次语言分析：

词汇层面

标记分布、词汇分析

句法层面

依存解析、词性标注、TF-IDF

语义层面

主题建模、语义相似度

lightbulb 主要发现

check_circle

与其他文本语料库相比，提示表现出独特的组合模式

check_circle

不同应用中提示构建的领域特定变化

check_circle

独特的语言特性将提示与文学和网络内容区分开来

check_circle

提示往往比一般文本更具指导性和任务导向性

tune 优化方法

利用句法嵌入的新颖提示优化方法：

text_fields

提取词性与依存特征

→

hub

识别质心表示

→

edit

指导大语言模型重写提示

提高了模型输出的意义和质量。

insights 影响与应用

star

首次全面编译提示数据集

star

为系统提示工程研究提供基础

star

实现更有效的提示选择和优化

star

促进大语言模型在各种应用中的广泛部署

folder_open 资源

数据集和代码可供研究使用：

link https://anonymous.4open.science/r/LLM-Prompt-Datasets-7416

超过1.22 TB的精选提示数据供研究使用

大语言模型提示数据集：深入分析与见解

大语言模型提示数据集：深入分析与见解

description 摘要

storage 数据收集

account_tree 分类法

analytics 分析方法

lightbulb 主要发现

tune 优化方法

insights 影响与应用

folder_open 资源

🌟 智谱 GLM-5 已上线