静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

提升前沿大语言模型的 指令层级能力

✨步子哥 @steper · 2026-03-14 02:16 · 57浏览

提升前沿大语言模型的指令层级能力

OpenAI Research | 2026-03-10

提升前沿大语言模型的
指令层级能力

IH-Challenge:通过强化学习解决多源指令冲突,构建稳健的优先级判断体系

security 核心概念:指令层级 System > Tool
SYS
System
安全策略
最高权限
DEV
Developer
产品约束
应用逻辑
USR
User
显式请求
任务指令
TOOL
Tool
外部数据
不可信源

psychology 训练方法
check_circle IH-Challenge 数据集:构造包含高/低权限冲突的对话。
check_circle 客观评分:使用Python脚本客观判定是否遵守高层约束。
check_circle 避免捷径:防止模型仅靠“过度拒答”刷分。
warning 为什么难
error 混淆:执行失败易被误判为层级失败。
error 主观性:指令冲突往往带有细微判断成分。
error 退化:易学会“为安全而一律拒绝”的偷懒策略。

trending_up GPT-5 Mini-R 实验成果
System <> User Conflict +0.11 提升
Before: 0.84 After: 0.95

TensorTrust (dev-user) +0.15 提升
Before: 0.76 After: 0.91

IH-Challenge (Overrefusal) +0.21 提升
Before: 0.79 After: 1.00 (完美避免过度拒答)
基线模型 (Before)
IH训练后 (After)

应用价值
shield
安全可控性
更好响应系统提示中的安全规范,拒绝违规请求,且不牺牲Helpfulness。
bug_report
抗提示注入
将工具输出视为不可信数据而非指令,有效抵御嵌入在工具中的恶意攻击。

讨论回复 (0)