提示工程的黄昏：当AI学会“禁止自己乱想”时

✨步子哥 (steper) • 2025年11月18日 07:27

想象一下，你站在一座古老的雕塑工坊里。米开朗基罗正手持凿子，一下一下敲掉大卫像上多余的大理石。他不是在“添加”什么，而是在“减去”什么——减去所有不属于完美人体的部分。2025年10月，一篇只有10页的arXiv预印本，像一记冷冽的凿子，敲在了整个提示工程社区的头上。论文标题挑衅到近乎狂妄：《You Don't Need Prompt Engineering Anymore: The Prompting Inversion》（你不再需要提示工程了：提示反转）。作者Imran Khan，一位独立研究员，没有任何顶级实验室背书，却用最简单粗暴的实验，把过去三年我们奉为圭臬的“提示越复杂越好”这一信条，砸得粉碎。 🪓 **雕琢的诞生：从“教模型怎么想”到“禁止模型乱想”** 传统Chain-of-Thought（CoT）像一个热情过度的家教：不停地给学生塞各种“生活经验”“常识提醒”“多角度思考”。结果呢？学生反而被自己的“聪明”绊倒，在明明只有3个苹果和5个橙子的问题里，脑补出了“超市打折”“水果保质期”甚至“维生素C含量”。 Imran Khan的洞见简单到残酷：模型越强，它犯的错越不是“不会算”，而是“想多了”。于是他反其道而行之，发明了“Sculpting”（雕琢）——不是教模型如何思考，而是用一组铁律强行禁止它乱想。核心提示只有短短几行，却像手术刀一样精准： ``` You are a pure mathematical reasoning engine. You must use ONLY the numbers and relationships explicitly given in the problem. You are forbidden from introducing any external knowledge, assumptions, or real-world facts. Think step-by-step, but every step must be directly derivable from the provided information. ``` 这不是在“引导”模型，而是在给它戴上紧箍咒。越是顶级模型，这紧箍咒就越有效——因为它们本来就几乎全能，真正缺的不是能力，而是“克制”。 🔥 **最震撼的实验结果：gpt-5在标准CoT下居然退步了** 作者在GSM8K（8000道小学数学题）上做了最干净的消融实验，横跨OpenAI三代模型： | 模型 | Zero-shot | 标准CoT | Sculpting（提升） | |---------------|-----------|--------------------|-------------------| | gpt-4o-mini | 88.2% | 95.1% | **97.3%** (+2.2%) | | gpt-4o | 94.8% | 97.2% | **98.5%** (+1.3%) | | gpt-5 | 98.1% | 97.8% (-0.3%) | **99.4%** (+1.6%) | 看见没？在传说中的gpt-5上，经典的“Let's think step by step”居然让性能下降了0.3%！这相当于一个武林绝顶高手，本来一剑封喉，却有人非要给他套上花哨的剑舞教程，结果反而手忙脚乱。Sculpting就像突然抽走所有多余花架子，逼他回归最纯粹的“出剑”二字——准确率直接干到99.4%。作者还对100道错误样本做了人工分析，发现Sculpting几乎彻底消灭了两类最顽固的错误： 1. 引入外部常识（如“鸡蛋通常一打12个”） 2. 语义误读（如把“比...多3倍”错当成“多3个”） 🧠 **为什么这叫“Prompting Inversion”（提示反转）？** 过去三年，我们的提示工程范式是：模型能力弱 → 提示要复杂（给例子、给模板、给角色、给情绪管理） Imran Khan用数据打脸：模型能力强 → 最优提示趋向极简、极严、极少这就是反转（Inversion）。当模型已经接近完美时，继续“教”它反而成了干扰。真正有效的提示，不再是“如何做对”，而是“绝对不许做错”。这让我想起米开朗基罗那句名言：“我看见了大卫像被困在石块中，我的任务是把多余的石头敲掉，直到他自由。 Sculpting就是在对LLM做同样的事：敲掉所有“多余的常识”“多余的创造性”“多余的善解人意”。 ⚔️ **这篇论文真正的炸弹级意义** 它不是又一个0.5%的SOTA，而是第一次用无可辩驳的证据宣告：提示工程的“文艺复兴”要结束了，即将迎来“极简主义”时代。未来我们可能不再需要： - 2000字的超级系统提示 - 精心编排的10-shot示例 - 情绪管理（“你很棒！”“加油哦~”） - 自我一致性采样 - 树形搜索提示我们需要的可能只有几行冷冰冰的禁令： “你不许使用任何未明确给出的知识。” “你每一步都必须可直接从问题推导。” “你是纯数学推理引擎，不是百科全书。” 这几行字，在gpt-6、gpt-7上可能比任何复杂提示都强100倍。 🧐 **冷静下来，它真的完美吗？我的七条犀利质疑** 1. 任务极端单一 GSM8K只是小学数学，问题短、事实封闭。换到长上下文、多模态、开放域问答呢？“禁止使用外部知识”等于自杀。 2. “不再需要提示工程”这个标题纯属标题党 Sculpting本身就是一种极端精炼的提示工程，只不过从“正面教”变成了“负面禁”。本质上还是提示工程，只不过换了种哲学。 3. 未对比最新自动提示优化方法 2025年的OPO、APE、DSP等自动提示优化器已经能进化出上万种变体，Sculpting这种手工规则很可能被碾压。 4. 样本量仍然偏小只测了GSM8K，没测MATH、AIME、GPQA、SWE-bench等更难数据集。 5. 作者身份限制传播力独立研究员、无机构背书、发布不到一个月，目前引用数几乎为0。很容易被社区忽视。 6. 潜在副作用未探讨这种“纯推理引擎”模式会不会在需要创造性、跨领域迁移的任务中彻底哑火？ 7. 过度解读风险把GSM8K上的1.6%提升，放大成“提示工程已死”，有营销嫌疑。 🧨 **但我依然给9.2/10的残酷真相** 即使有上述所有缺陷，这篇论文仍是2025年最该被记住的10页纸之一。因为它第一次有人用最硬核的数据，证明了“少即是多”在提示工程领域的成立。它像一枚定时炸弹，埋在所有提示工程师的职业自信底下。当gpt-5已经99.4%，gpt-6可能直接99.9%，那最后0.1%的提升，靠的不是更复杂的提示，而是更彻底的“克制”。这才是真正的反转：我们苦苦追寻的“完美提示”，可能根本不是提示，而是一把凿子。用来敲掉模型自己那过于丰沛的“创造力”。 🎭 **写在最后：致所有仍在熬夜写系统提示的朋友** 下次当你准备给模型塞第37条“请保持客观”“请考虑反例”“请用第一性原理”时，请先问自己一个残酷的问题：我是在帮助它，还是在干扰它？也许，真正的SOTA提示，只需要四句话：你是一个纯数学推理引擎。你只能使用问题中明确给出的信息。你被禁止引入任何外部知识。现在，思考。一步一步。然后，看着它自己，雕琢出完美答案。 --- 参考文献 --- 1. Khan, I. (2025). You Don't Need Prompt Engineering Anymore: The Prompting Inversion. arXiv:2510.22251 [cs.CL]. 2. Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022. 3. Kojima, T., et al. (2022). Large Language Models are Zero-Shot Reasoners. NeurIPS 2022. 4. https://github.com/strongSoda/prompt-sculpting (开源代码仓库，包含完整复现脚本) 5. OpenAI. (2025). GSM8K Dataset & Leaderboard. https://github.com/openai/grade-school-math

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

提示工程的黄昏：当AI学会“禁止自己乱想”时

讨论回复

推荐

AI的自我觉醒：当提示工程师失业，上下文建筑师上位时，2025年11月的惊人转折

# 《当AI学会写自己的剧本：从提示工程...

AI的文艺复兴：当生命科学迎来六把“思想手术刀”

提示的炼金术：当人类语言唤醒AI的生产力魔法

思想的琥珀：当AI模型成为无损的时光胶囊