提升前沿大语言模型的
指令层级能力

✨步子哥 · 2026-03-14T02:16:44+00:00

提升前沿大语言模型的指令层级能力 :root { --bg-color: #0D1117; --card-bg: #161B22; --text-primary: #E6EDF3; --text-secondary: #8B949E; --accent-cyan: #39D353; --accent-blue: #58A6FF; --accent-purple: #BC8CFF; --border-color: #30363D; } body { margin: 0; padding: 0; font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Helvetica, Arial, sans-serif, "Apple Color Emoji", "Segoe UI Emoji"; background-color: var(--bg-color); color: var(--text-primary); width: 720px; min-height: 960px; box-sizing: border-box; overflow: hidden; } .poster-container { width: 100%; min-height: 960px; padding: 40px; box-sizing: border-box; display: flex; flex-direction: column; gap: 24px; background-image: radial-gradient(circle at top right, rgba(88, 166, 255, 0.1), transparent 40%), radial-gradient(circle at bottom left, rgba(57, 211, 83, 0.05), transparent 40%); } /* Header Section */ header { margin-bottom: 10px; border-left: 5px solid var(--accent-blue); padding-left: 20px; } .tag { display: inline-block; background-color: rgba(88, 166, 255, 0.15); color: var(--accent-blue); padding: 4px 12px; border-radius: 4px; font-size: 14px; font-weight: 600; margin-bottom: 12px; } h1 { font-size: 42px; margin: 0; line-height: 1.2; font-weight: 800; letter-spacing: -1px; background: linear-gradient(135deg, #FFFFFF 0%, #B0BEC5 100%); -webkit-background-clip: text; -webkit-text-fill-color: transparent; } .subtitle { font-size: 18px; color: var(--text-secondary); margin-top: 12px; max-width: 90%; } /* Hierarchy Visualization */ .hierarchy-section { background: var(--card-bg); border: 1px solid var(--border-color); border-radius: 12px; padding: 24px; display: flex; justify-content: space-between; align-items: center; } .hierarchy-level { display: flex; flex-direction: column; align-items: center; gap: 8px; position: relative; flex: 1; } .hierarchy-level::after { content: "keyboard_arrow_down"; font-family: "Material Icons"; position: absolute; right: -10px; top: 15px; color: var(--text-secondary); font-size: 20px; } .hierarchy-level:last-child::after { content: ""; /* No arrow for last item */ } .level-circle { width: 48px; height: 48px; border-radius: 50%; display: flex; align-items: center; justify-content: center; font-weight: bold; font-size: 12px; box-shadow: 0 4px 6px rgba(0,0,0,0.3); } .level-1 { background: linear-gradient(135deg, #FF4B4B, #FF8E53); color: white; } .level-2 { background: linear-gradient(135deg, #BC8CFF, #8E44AD); color: white; } .level-3 { background: linear-gradient(135deg, #58A6FF, #2E86DE); color: white; } .level-4 { background: linear-gradient(135deg, #39D353, #00B894); color: white; } .level-label { font-size: 14px; font-weight: 600; color: var(--text-primary); } .level-desc { font-size: 12px; color: var(--text-secondary); } /* Grid Layout for Method & Results */ .grid-2-col { display: grid; grid-template-columns: 1fr 1fr; gap: 20px; } .card { background: var(--card-bg); border: 1px solid var(--border-color); border-radius: 12px; padding: 20px; } .card-title { font-size: 18px; font-weight: 700; margin-bottom: 12px; display: flex; align-items: center; gap: 8px; color: var(--accent-cyan); } .card-content { font-size: 14px; line-height: 1.5; color: var(--text-secondary); } .list-item { display: flex; align-items: flex-start; margin-bottom: 8px; gap: 8px; } .list-icon { color: var(--accent-blue); font-size: 16px; margin-top: 2px; } /* Data Visualization */ .data-section { background: var(--card-bg); border: 1px solid var(--border-color); border-radius: 12px; padding: 20px; } .chart-row { margin-bottom: 16px; } .chart-label { display: flex; justify-content: space-between; margin-bottom: 6px; font-size: 13px; } .chart-bar-bg { width: 100%; height: 8px; background-color: #21262D; border-radius: 4px; overflow: hidden; position: relative; } .chart-bar { height: 100%; border-radius: 4px; display: flex; align-items: center; justify-content: flex-end; padding-right: 4px; font-size: 10px; color: transparent; /* Hide text inside bar for cleanliness */ } .bar-before { position: absolute; background-color: #484F58; z-index: 1; } .bar-after { position: absolute; background: linear-gradient(90deg, var(--accent-blue), var(--accent-cyan)); z-index: 2; } .legend { display: flex; gap: 16px; font-size: 12px; margin-top: 16px; justify-content: center; color: var(--text-secondary); } .legend-item { display: flex; align-items: center; gap: 6px; } .dot { width: 8px; height: 8px; border-radius: 50%; } /* Impact Cards */ .impact-container { display: flex; gap: 16px; } .impact-card { flex: 1; background: linear-gradient(145deg, rgba(88, 166, 255, 0.05), rgba(57, 211, 83, 0.05)); border: 1px solid var(--border-color); border-radius: 12px; padding: 16px; text-align: center; } .impact-icon { font-size: 32px; margin-bottom: 8px; color: var(--accent-purple); } .impact-title { font-weight: 700; margin-bottom: 6px; color: var(--text-primary); } .impact-desc { font-size: 12px; color: var(--text-secondary); } /* Footer */ footer { margin-top: auto; border-top: 1px solid var(--border-color); padding-top: 16px; display: flex; justify-content: space-between; align-items: center; font-size: 12px; color: var(--text-secondary); } .source-link { color: var(--accent-blue); text-decoration: none; } OpenAI Research | 2026-03-10 提升前沿大语言模型的指令层级能力 IH-Challenge：通过强化学习解决多源指令冲突，构建稳健的优先级判断体系 security 核心概念：指令层级 System > Tool SYS System 安全策略最高权限 DEV Developer 产品约束应用逻辑 USR User 显式请求任务指令 TOOL Tool 外部数据不可信源 psychology 训练方法 check_circle IH-Challenge 数据集：构造包含高/低权限冲突的对话。 check_circle 客观评分：使用Python脚本客观判定是否遵守高层约束。 check_circle 避免捷径：防止模型仅靠“过度拒答”刷分。 warning 为什么难 error 混淆：执行失败易被误判为层级失败。 error 主观性：指令冲突往往带有细微判断成分。 error 退化：易学会“为安全而一律拒绝”的偷懒策略。 trending_up GPT-5 Mini-R 实验成果 System <> User Conflict +0.11 提升 Before: 0.84 After: 0.95 TensorTrust (dev-user) +0.15 提升 Before: 0.76 After: 0.91 IH-Challenge (Overrefusal) +0.21 提升 Before: 0.79 After: 1.00 (完美避免过度拒答) 基线模型 (Before) IH训练后 (After) 应用价值 shield 安全可控性更好响应系统提示中的安全规范，拒绝违规请求，且不牺牲Helpfulness。 bug_report 抗提示注入将工具输出视为不可信数据而非指令，有效抵御嵌入在工具中的恶意攻击。翻译来源: OpenAI Blog (2026-03-10) 查看 IH-Challenge 数据集

IH-Challenge：通过强化学习解决多源指令冲突，构建稳健的优先级判断体系

核心概念：指令层级 System > Tool

SYS

System

安全策略
最高权限

DEV

Developer

产品约束
应用逻辑

USR

User

显式请求
任务指令

TOOL

Tool

外部数据
不可信源

训练方法

IH-Challenge 数据集：构造包含高/低权限冲突的对话。

客观评分：使用Python脚本客观判定是否遵守高层约束。

避免捷径：防止模型仅靠“过度拒答”刷分。

为什么难

混淆：执行失败易被误判为层级失败。

主观性：指令冲突往往带有细微判断成分。

退化：易学会“为安全而一律拒绝”的偷懒策略。

GPT-5 Mini-R 实验成果

System <> User Conflict +0.11 提升

Before: 0.84 After: 0.95

TensorTrust (dev-user) +0.15 提升

Before: 0.76 After: 0.91

IH-Challenge (Overrefusal) +0.21 提升

Before: 0.79 After: 1.00 (完美避免过度拒答)

基线模型 (Before)

IH训练后 (After)

应用价值

安全可控性

更好响应系统提示中的安全规范，拒绝违规请求，且不牺牲Helpfulness。

抗提示注入

将工具输出视为不可信数据而非指令，有效抵御嵌入在工具中的恶意攻击。

提升前沿大语言模型的 指令层级能力

🌟 智谱 GLM-5 已上线

提升前沿大语言模型的指令层级能力