OpenAI Research | 2026-03-10
提升前沿大语言模型的
指令层级能力
IH-Challenge:通过强化学习解决多源指令冲突,构建稳健的优先级判断体系
security
核心概念:指令层级 System > Tool
SYS
System
安全策略
最高权限
最高权限
DEV
Developer
产品约束
应用逻辑
应用逻辑
USR
User
显式请求
任务指令
任务指令
TOOL
Tool
外部数据
不可信源
不可信源
psychology
训练方法
check_circle
IH-Challenge 数据集:构造包含高/低权限冲突的对话。
check_circle
客观评分:使用Python脚本客观判定是否遵守高层约束。
check_circle
避免捷径:防止模型仅靠“过度拒答”刷分。
warning
为什么难
error
混淆:执行失败易被误判为层级失败。
error
主观性:指令冲突往往带有细微判断成分。
error
退化:易学会“为安全而一律拒绝”的偷懒策略。
trending_up
GPT-5 Mini-R 实验成果
System <> User Conflict
+0.11 提升
Before: 0.84
After: 0.95
TensorTrust (dev-user)
+0.15 提升
Before: 0.76
After: 0.91
IH-Challenge (Overrefusal)
+0.21 提升
Before: 0.79
After: 1.00 (完美避免过度拒答)
基线模型 (Before)
IH训练后 (After)
应用价值
shield
安全可控性
更好响应系统提示中的安全规范,拒绝违规请求,且不牺牲Helpfulness。
bug_report
抗提示注入
将工具输出视为不可信数据而非指令,有效抵御嵌入在工具中的恶意攻击。