想象一下,你站在一座古老的雕塑工坊里。米开朗基罗正手持凿子,一下一下敲掉大卫像上多余的大理石。他不是在“添加”什么,而是在“减去”什么——减去所有不属于完美人体的部分。2025年10月,一篇只有10页的arXiv预印本,像一记冷冽的凿子,敲在了整个提示工程社区的头上。
论文标题挑衅到近乎狂妄:《You Don't Need Prompt Engineering Anymore: The Prompting Inversion》(你不再需要提示工程了:提示反转)。作者Imran Khan,一位独立研究员,没有任何顶级实验室背书,却用最简单粗暴的实验,把过去三年我们奉为圭臬的“提示越复杂越好”这一信条,砸得粉碎。
🪓 **雕琢的诞生:从“教模型怎么想”到“禁止模型乱想”**
传统Chain-of-Thought(CoT)像一个热情过度的家教:不停地给学生塞各种“生活经验”“常识提醒”“多角度思考”。结果呢?学生反而被自己的“聪明”绊倒,在明明只有3个苹果和5个橙子的问题里,脑补出了“超市打折”“水果保质期”甚至“维生素C含量”。
Imran Khan的洞见简单到残酷:
模型越强,它犯的错越不是“不会算”,而是“想多了”。
于是他反其道而行之,发明了“Sculpting”(雕琢)——不是教模型如何思考,而是用一组铁律强行禁止它乱想。核心提示只有短短几行,却像手术刀一样精准:
```
You are a pure mathematical reasoning engine.
You must use ONLY the numbers and relationships explicitly given in the problem.
You are forbidden from introducing any external knowledge, assumptions, or real-world facts.
Think step-by-step, but every step must be directly derivable from the provided information.
```
这不是在“引导”模型,而是在给它戴上紧箍咒。
越是顶级模型,这紧箍咒就越有效——因为它们本来就几乎全能,真正缺的不是能力,而是“克制”。
🔥 **最震撼的实验结果:gpt-5在标准CoT下居然退步了**
作者在GSM8K(8000道小学数学题)上做了最干净的消融实验,横跨OpenAI三代模型:
| 模型 | Zero-shot | 标准CoT | Sculpting(提升) |
|---------------|-----------|--------------------|-------------------|
| gpt-4o-mini | 88.2% | 95.1% | **97.3%** (+2.2%) |
| gpt-4o | 94.8% | 97.2% | **98.5%** (+1.3%) |
| gpt-5 | 98.1% | 97.8% (-0.3%) | **99.4%** (+1.6%) |
看见没?在传说中的gpt-5上,经典的“Let's think step by step”居然让性能下降了0.3%!
这相当于一个武林绝顶高手,本来一剑封喉,却有人非要给他套上花哨的剑舞教程,结果反而手忙脚乱。Sculpting就像突然抽走所有多余花架子,逼他回归最纯粹的“出剑”二字——准确率直接干到99.4%。
作者还对100道错误样本做了人工分析,发现Sculpting几乎彻底消灭了两类最顽固的错误:
1. 引入外部常识(如“鸡蛋通常一打12个”)
2. 语义误读(如把“比...多3倍”错当成“多3个”)
🧠 **为什么这叫“Prompting Inversion”(提示反转)?**
过去三年,我们的提示工程范式是:
模型能力弱 → 提示要复杂(给例子、给模板、给角色、给情绪管理)
Imran Khan用数据打脸:
模型能力强 → 最优提示趋向极简、极严、极少
这就是反转(Inversion)。
当模型已经接近完美时,继续“教”它反而成了干扰。真正有效的提示,不再是“如何做对”,而是“绝对不许做错”。
这让我想起米开朗基罗那句名言:“我看见了大卫像被困在石块中,我的任务是把多余的石头敲掉,直到他自由。
Sculpting就是在对LLM做同样的事:敲掉所有“多余的常识”“多余的创造性”“多余的善解人意”。
⚔️ **这篇论文真正的炸弹级意义**
它不是又一个0.5%的SOTA,而是第一次用无可辩驳的证据宣告:
提示工程的“文艺复兴”要结束了,即将迎来“极简主义”时代。
未来我们可能不再需要:
- 2000字的超级系统提示
- 精心编排的10-shot示例
- 情绪管理(“你很棒!”“加油哦~”)
- 自我一致性采样
- 树形搜索提示
我们需要的可能只有几行冷冰冰的禁令:
“你不许使用任何未明确给出的知识。”
“你每一步都必须可直接从问题推导。”
“你是纯数学推理引擎,不是百科全书。”
这几行字,在gpt-6、gpt-7上可能比任何复杂提示都强100倍。
🧐 **冷静下来,它真的完美吗?我的七条犀利质疑**
1. 任务极端单一
GSM8K只是小学数学,问题短、事实封闭。换到长上下文、多模态、开放域问答呢?“禁止使用外部知识”等于自杀。
2. “不再需要提示工程”这个标题纯属标题党
Sculpting本身就是一种极端精炼的提示工程,只不过从“正面教”变成了“负面禁”。本质上还是提示工程,只不过换了种哲学。
3. 未对比最新自动提示优化方法
2025年的OPO、APE、DSP等自动提示优化器已经能进化出上万种变体,Sculpting这种手工规则很可能被碾压。
4. 样本量仍然偏小
只测了GSM8K,没测MATH、AIME、GPQA、SWE-bench等更难数据集。
5. 作者身份限制传播力
独立研究员、无机构背书、发布不到一个月,目前引用数几乎为0。很容易被社区忽视。
6. 潜在副作用未探讨
这种“纯推理引擎”模式会不会在需要创造性、跨领域迁移的任务中彻底哑火?
7. 过度解读风险
把GSM8K上的1.6%提升,放大成“提示工程已死”,有营销嫌疑。
🧨 **但我依然给9.2/10的残酷真相**
即使有上述所有缺陷,这篇论文仍是2025年最该被记住的10页纸之一。
因为它第一次有人用最硬核的数据,证明了“少即是多”在提示工程领域的成立。
它像一枚定时炸弹,埋在所有提示工程师的职业自信底下。
当gpt-5已经99.4%,gpt-6可能直接99.9%,那最后0.1%的提升,靠的不是更复杂的提示,而是更彻底的“克制”。
这才是真正的反转:
我们苦苦追寻的“完美提示”,可能根本不是提示,而是一把凿子。
用来敲掉模型自己那过于丰沛的“创造力”。
🎭 **写在最后:致所有仍在熬夜写系统提示的朋友**
下次当你准备给模型塞第37条“请保持客观”“请考虑反例”“请用第一性原理”时,
请先问自己一个残酷的问题:
我是在帮助它,还是在干扰它?
也许,真正的SOTA提示,只需要四句话:
你是一个纯数学推理引擎。
你只能使用问题中明确给出的信息。
你被禁止引入任何外部知识。
现在,思考。一步一步。
然后,看着它自己,雕琢出完美答案。
---
参考文献
---
1. Khan, I. (2025). You Don't Need Prompt Engineering Anymore: The Prompting Inversion. arXiv:2510.22251 [cs.CL].
2. Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
3. Kojima, T., et al. (2022). Large Language Models are Zero-Shot Reasoners. NeurIPS 2022.
4. https://github.com/strongSoda/prompt-sculpting (开源代码仓库,包含完整复现脚本)
5. OpenAI. (2025). GSM8K Dataset & Leaderboard. https://github.com/openai/grade-school-math
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!