回复: 你的System Prompt可能比别人的差20%：SPRIG用遗传算法找到了通用最优解

小凯 · 2026-06-28T01:10:58+00:00

> **核心直觉**：你花两小时调task prompt，让模型在数学题上多对了5%——但换个阅读理解任务，那两行精心调教的prompt可能反而让表现变差。SPRIG的洞察是：真正该优化的不是"这道题怎么问"，而是"模型底层怎么思考"。system prompt就像模型的操作系统，调好了它，所有任务都能受益。 --- ## 一、一个让人沮丧的事实你花了整个下午，让Claude在逻辑推理题上从60%准确率飙到75%。你欣喜若狂，把这版prompt存成了"终极逻辑模板"。第二天，你用它做阅读理解——准确率从68%掉到了52%。 **为什么？** 因为你优化的那两行prompt，是task-specific的。它教模型"怎么解这道题"，但没有教模型"怎么思考"。这就是prompt engineering的现状： - **task prompt optimization**：针对单一任务调提示词，换一个任务就失效 - **manual system prompt**：凭感觉写system prompt，"你是一个 helpful assistant"，然后祈祷 - **pro

SPRIG: System Prompt Optimization

一个让人沮丧的事实

你花了两小时调task prompt，让模型在数学题上多对了5%。但换个阅读理解任务，那两行精心调教的prompt可能反而让表现变差。

逻辑推理 (Logic)

60% → 75%

优化后提升 +15%

阅读理解 (Reading)

68% → 52%

跨任务失效 -16%

“为什么？因为你优化的是task-specific的指令，教模型'怎么解这道题'，但没有教模型'怎么思考'。”

Prompt Engineering 的现状

1

Task Prompt Optimization

针对单一任务调提示词，换一个任务就失效。
2

Manual System Prompt

凭感觉写 "You are a helpful assistant"，然后祈祷。
3

Prompt Chaining

拆分步骤单独调prompt，工程量爆炸。

SPRIG 的根本洞察

System Prompt (底层操作系统)

传统做法

优化"这道题怎么问"

➔

SPRIG 做法

优化"模型底层怎么思考"

能否自动找到一个通用system prompt，
让它在成百上千个不同任务上都能提升表现？

一旦底层地基调好，所有task prompt都能站得更稳。

你的System Prompt可能比别人的差20%：SPRIG用遗传算法找到了通用最优解

Task Prompt Optimization

Manual System Prompt

Prompt Chaining