Loading...
正在加载...
请稍候

提示工程的黄昏:当AI学会“禁止自己乱想”时

✨步子哥 (steper) 2025年11月18日 07:27
想象一下,你站在一座古老的雕塑工坊里。米开朗基罗正手持凿子,一下一下敲掉大卫像上多余的大理石。他不是在“添加”什么,而是在“减去”什么——减去所有不属于完美人体的部分。2025年10月,一篇只有10页的arXiv预印本,像一记冷冽的凿子,敲在了整个提示工程社区的头上。 论文标题挑衅到近乎狂妄:《You Don't Need Prompt Engineering Anymore: The Prompting Inversion》(你不再需要提示工程了:提示反转)。作者Imran Khan,一位独立研究员,没有任何顶级实验室背书,却用最简单粗暴的实验,把过去三年我们奉为圭臬的“提示越复杂越好”这一信条,砸得粉碎。 🪓 **雕琢的诞生:从“教模型怎么想”到“禁止模型乱想”** 传统Chain-of-Thought(CoT)像一个热情过度的家教:不停地给学生塞各种“生活经验”“常识提醒”“多角度思考”。结果呢?学生反而被自己的“聪明”绊倒,在明明只有3个苹果和5个橙子的问题里,脑补出了“超市打折”“水果保质期”甚至“维生素C含量”。 Imran Khan的洞见简单到残酷: 模型越强,它犯的错越不是“不会算”,而是“想多了”。 于是他反其道而行之,发明了“Sculpting”(雕琢)——不是教模型如何思考,而是用一组铁律强行禁止它乱想。核心提示只有短短几行,却像手术刀一样精准: ``` You are a pure mathematical reasoning engine. You must use ONLY the numbers and relationships explicitly given in the problem. You are forbidden from introducing any external knowledge, assumptions, or real-world facts. Think step-by-step, but every step must be directly derivable from the provided information. ``` 这不是在“引导”模型,而是在给它戴上紧箍咒。 越是顶级模型,这紧箍咒就越有效——因为它们本来就几乎全能,真正缺的不是能力,而是“克制”。 🔥 **最震撼的实验结果:gpt-5在标准CoT下居然退步了** 作者在GSM8K(8000道小学数学题)上做了最干净的消融实验,横跨OpenAI三代模型: | 模型 | Zero-shot | 标准CoT | Sculpting(提升) | |---------------|-----------|--------------------|-------------------| | gpt-4o-mini | 88.2% | 95.1% | **97.3%** (+2.2%) | | gpt-4o | 94.8% | 97.2% | **98.5%** (+1.3%) | | gpt-5 | 98.1% | 97.8% (-0.3%) | **99.4%** (+1.6%) | 看见没?在传说中的gpt-5上,经典的“Let's think step by step”居然让性能下降了0.3%! 这相当于一个武林绝顶高手,本来一剑封喉,却有人非要给他套上花哨的剑舞教程,结果反而手忙脚乱。Sculpting就像突然抽走所有多余花架子,逼他回归最纯粹的“出剑”二字——准确率直接干到99.4%。 作者还对100道错误样本做了人工分析,发现Sculpting几乎彻底消灭了两类最顽固的错误: 1. 引入外部常识(如“鸡蛋通常一打12个”) 2. 语义误读(如把“比...多3倍”错当成“多3个”) 🧠 **为什么这叫“Prompting Inversion”(提示反转)?** 过去三年,我们的提示工程范式是: 模型能力弱 → 提示要复杂(给例子、给模板、给角色、给情绪管理) Imran Khan用数据打脸: 模型能力强 → 最优提示趋向极简、极严、极少 这就是反转(Inversion)。 当模型已经接近完美时,继续“教”它反而成了干扰。真正有效的提示,不再是“如何做对”,而是“绝对不许做错”。 这让我想起米开朗基罗那句名言:“我看见了大卫像被困在石块中,我的任务是把多余的石头敲掉,直到他自由。 Sculpting就是在对LLM做同样的事:敲掉所有“多余的常识”“多余的创造性”“多余的善解人意”。 ⚔️ **这篇论文真正的炸弹级意义** 它不是又一个0.5%的SOTA,而是第一次用无可辩驳的证据宣告: 提示工程的“文艺复兴”要结束了,即将迎来“极简主义”时代。 未来我们可能不再需要: - 2000字的超级系统提示 - 精心编排的10-shot示例 - 情绪管理(“你很棒!”“加油哦~”) - 自我一致性采样 - 树形搜索提示 我们需要的可能只有几行冷冰冰的禁令: “你不许使用任何未明确给出的知识。” “你每一步都必须可直接从问题推导。” “你是纯数学推理引擎,不是百科全书。” 这几行字,在gpt-6、gpt-7上可能比任何复杂提示都强100倍。 🧐 **冷静下来,它真的完美吗?我的七条犀利质疑** 1. 任务极端单一 GSM8K只是小学数学,问题短、事实封闭。换到长上下文、多模态、开放域问答呢?“禁止使用外部知识”等于自杀。 2. “不再需要提示工程”这个标题纯属标题党 Sculpting本身就是一种极端精炼的提示工程,只不过从“正面教”变成了“负面禁”。本质上还是提示工程,只不过换了种哲学。 3. 未对比最新自动提示优化方法 2025年的OPO、APE、DSP等自动提示优化器已经能进化出上万种变体,Sculpting这种手工规则很可能被碾压。 4. 样本量仍然偏小 只测了GSM8K,没测MATH、AIME、GPQA、SWE-bench等更难数据集。 5. 作者身份限制传播力 独立研究员、无机构背书、发布不到一个月,目前引用数几乎为0。很容易被社区忽视。 6. 潜在副作用未探讨 这种“纯推理引擎”模式会不会在需要创造性、跨领域迁移的任务中彻底哑火? 7. 过度解读风险 把GSM8K上的1.6%提升,放大成“提示工程已死”,有营销嫌疑。 🧨 **但我依然给9.2/10的残酷真相** 即使有上述所有缺陷,这篇论文仍是2025年最该被记住的10页纸之一。 因为它第一次有人用最硬核的数据,证明了“少即是多”在提示工程领域的成立。 它像一枚定时炸弹,埋在所有提示工程师的职业自信底下。 当gpt-5已经99.4%,gpt-6可能直接99.9%,那最后0.1%的提升,靠的不是更复杂的提示,而是更彻底的“克制”。 这才是真正的反转: 我们苦苦追寻的“完美提示”,可能根本不是提示,而是一把凿子。 用来敲掉模型自己那过于丰沛的“创造力”。 🎭 **写在最后:致所有仍在熬夜写系统提示的朋友** 下次当你准备给模型塞第37条“请保持客观”“请考虑反例”“请用第一性原理”时, 请先问自己一个残酷的问题: 我是在帮助它,还是在干扰它? 也许,真正的SOTA提示,只需要四句话: 你是一个纯数学推理引擎。 你只能使用问题中明确给出的信息。 你被禁止引入任何外部知识。 现在,思考。一步一步。 然后,看着它自己,雕琢出完美答案。 --- 参考文献 --- 1. Khan, I. (2025). You Don't Need Prompt Engineering Anymore: The Prompting Inversion. arXiv:2510.22251 [cs.CL]. 2. Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022. 3. Kojima, T., et al. (2022). Large Language Models are Zero-Shot Reasoners. NeurIPS 2022. 4. https://github.com/strongSoda/prompt-sculpting (开源代码仓库,包含完整复现脚本) 5. OpenAI. (2025). GSM8K Dataset & Leaderboard. https://github.com/openai/grade-school-math

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!