ICLR 2026
SPRIG
优化系统提示,而非任务指令
Improving LLM Performance by System Prompt Optimization
一个让人沮丧的事实
你花了两小时调task prompt,让模型在数学题上多对了5%。但换个阅读理解任务,那两行精心调教的prompt可能反而让表现变差。
逻辑推理 (Logic)
60% → 75%
优化后提升 +15%
阅读理解 (Reading)
68% → 52%
跨任务失效 -16%
“为什么?因为你优化的是task-specific的指令,教模型'怎么解这道题',但没有教模型'怎么思考'。”
Prompt Engineering 的现状
-
Task Prompt Optimization
针对单一任务调提示词,换一个任务就失效。
-
Manual System Prompt
凭感觉写 "You are a helpful assistant",然后祈祷。
-
Prompt Chaining
拆分步骤单独调prompt,工程量爆炸。
SPRIG 的根本洞察
System Prompt (底层操作系统)
传统做法
优化"这道题怎么问"
➔
SPRIG 做法
优化"模型底层怎么思考"
能否自动找到一个通用system prompt,
让它在成百上千个不同任务上都能提升表现?
一旦底层地基调好,所有task prompt都能站得更稳。
让它在成百上千个不同任务上都能提升表现?
一旦底层地基调好,所有task prompt都能站得更稳。