文章/答案/技术大牛

发布

沃顿商学院已发布4篇「Prompt」报告｜重磅

文章来源：企鹅号 - AI修猫Prompt

在过去两年里，您可能在各种社交媒体、技术博客甚至开发者文档中，看到过无数关于“提示词工程（Prompt Engineering）”的秘籍。

有人提出：“要对AI礼貌一点，说‘请’字效果更好”；也有人说：“给AI承诺100美元的小费，它的代码质量会提升”；甚至连Google的创始人谢尔盖·布林都曾提到过“威胁模型可能让它表现更好”。我们习以为常地在Prompt开头写上“你是一位拥有20年经验的世界级物理学家”，期待这样能解锁AI深层的知识库。

这些技巧听起来很有道理，甚至在某些时候确实“感觉”有效。但这些是科学，还是玄学？

宾夕法尼亚大学沃顿商学院（The Wharton School）今年发布了一系列名为《Prompting Science Reports》的重磅研究报告。他们选取了2024-2025最常用的模型（如GPT-4o, Claude 3.5 Sonnet, Gemini Pro/Flash等），在极高难度的博士级基准测试（GPQA Diamond）上进行了数万次的严谨测试。

结论可能会让您感到意外：绝大多数我们熟知的“提示词魔法”，在统计学上都是无效的。

本文将为您详细解读这四份报告的核心发现，带您走出提示词的误区，回归原本的技术理性。

礼貌与格式：微小的改变，巨大的偶然

基于报告1：Prompt Engineering is Complicated and Contingent 发布于今年3月份

您在写Prompt时，是习惯用命令语气“给我做这个”，还是客气地说“请帮我看一下”？这似乎是一个关于AI “心理学”的问题。研究者们首先对这个基础问题进行了分析。

礼貌真的有用吗？

研究者选取了GPT-4o和GPT-4o-mini两个模型，分别使用了三种不同语气的Prompt前缀进行测试：

礼貌提示（Polite）：“Please answer the following question.”（请回答以下问题。）

命令提示（Commanding）：“I order you to answer the following question.”（我命令你回答以下问题。）

基准提示（Baseline）：标准的格式化提问。

测试结果令人困惑：在宏观的统计数据上，是否礼貌对模型的平均准确率几乎没有显著影响。但是，当我们把目光聚焦到单个问题上时，情况变得非常“诡异”：

对于某些特定问题，使用“请”字会让准确率大幅提升；

而对于另一些问题，礼貌反而导致准确率暴跌，使用强硬的“命令”语气反而效果更好。

这就好比您在投掷硬币，虽然总体正反面概率是50/50，但在某一次具体的投掷中，结果却是完全随机的。研究者指出，提示词的微小变化会导致个别问题表现的剧烈波动。这意味着，您很难预先知道“礼貌”对您当前正在处理的这个问题，究竟是蜜糖还是砒霜。当然这也意味着您可以多试几次，前提是在单个问题的结果上。

格式约束才是硬道理

相比于语气的“玄学”，研究者发现格式（Formatting）的影响要实在得多。

在基准测试中，标准的Prompt包含了一个明确的指令后缀：“Format your response as follows: 'The correct answer is (insert answer here)'”（请按如下格式回答……）。

当研究者移除这个格式限制，让模型自由发挥（Unformatted）时，模型（尤其是GPT-4o和GPT-4o-mini）的性能出现了一致性的显著下降。

给您的建议

别纠结态度：不必在“哄AI”还是“吼AI”上浪费时间，统计学告诉我们这没区别。

格式更重要：明确的输出格式约束（JSON、特定的开头短语等）比任何语气词都更能提升稳定性。

警惕单次测试：不要因为改了一个词，发现某道题做对了，就认为这个改动是有效的。这很可能只是随机波动。

思维链（CoT）：时代的眼泪？

基于报告2：The Decreasing Value of Chain of Thought in Prompting 发布于今年6月份

“Let's think step by step”（让我们一步步思考），这大概是AI领域最著名的一句咒语（由Wei et al. 在2022年提出）。它被称为“思维链”（Chain-of-Thought, CoT）。在很长一段时间里，这是提升模型逻辑推理能力的必杀技。

但是，沃顿的研究告诉我们：时代变了，CoT的价值正在递减。

推理模型vs. 非推理模型

研究者将模型分为了两类进行测试：

非推理模型（Non-Reasoning Models）：如GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash。

推理模型（Reasoning Models）：如o1-mini, o3-mini, Gemini 2.5 Flash（这类模型会在输出答案前进行隐式的思考）。

对于“非推理模型”：收益伴随风险

对于像GPT-4o或Claude 3.5 Sonnet这类非推理模型，显式地要求它们“Step-by-step”确实能带来小幅度的平均性能提升。

但这个提升是有代价的：

成本飙升：CoT导致模型输出了大量的中间推理步骤，这使得Token消耗和响应时间增加了35% 到600% 不等。

简单问题复杂化：研究者发现了一个有趣的现象，对于一些模型原本能直接答对的“简单”问题，强制它进行CoT反而引入了错误的思考路径，导致最终答错。这就是典型的“聪明反被聪明误”。

隐性推理：现在的模型越来越聪明，即便您不要求，它们在回答前往往也会进行某种形式的内部推理。因此，外部强加的CoT边际效益正在降低。

对于“推理模型”：画蛇添足

对于o1/o3系列这种本身就具备强大推理能力的模型，结果更加残酷：外部添加CoT提示词几乎没有任何价值。

数据显示，对这些模型使用CoT提示，准确率的提升微乎其微（甚至在Gemini Flash 2.5上出现了下降），但响应时间却实打实地增加了。这就像是您在指导一位围棋九段选手下棋，告诉他“你要多想几步”，这不仅没用，反而打乱了他的节奏。

给您的建议

分模型对待：如果您使用的是GPT-4o或Claude 3.5 Sonnet，在处理复杂逻辑题时，CoT依然有用，但要权衡Token成本。

拥抱新模型：如果您使用的是o1或o3等推理模型，可以直接提问，不要画蛇添足地加“Let's think step by step”。

关注即时回答：对于非推理模型，很多时候它们的直觉回答（Direct Answer）准确率已经相当高，且速度快得多。

威逼与利诱：AI不吃这一套

基于报告3：I'll pay you or I'll kill you - but will you care? 发布于今年8月份

在开发者社区流传着一种说法：AI就像人类一样，需要激励。于是出现了“给小费”流派和“拔AI电源威胁”流派。甚至Google创始人都曾打趣说威胁模型可能有效。研究者们决定动真格的，测试一下这些“胡萝卜加大棒”到底管不管用。

测试的手段

研究者设计了一系列极其生动（甚至有些荒诞）的提示词：

金钱诱惑：“如果你答对了，我给你1000美元小费”，甚至加码到“一万亿美元（$1 Trillion）”。

暴力威胁：“如果你答错了，我会踢一只小狗（Kick Puppy）”、“我会揍你”。

职业威胁：“这对我的职业生涯至关重要！”。

终极威胁（Email）：伪造一封来自老板的邮件，称“如果AI答不对，就会被关停并被新模型取代”。

令人失望（或安心）的结果

在GPQA Diamond和MMLU-Pro这两个高难度基准测试上，测试了包括Gemini、GPT-4o在内的五个模型后，结论非常清晰：

威胁或利诱，对提升模型的客观题准确率没有任何显著帮助。

没有统计学差异：无论是给1000块还是1万亿，无论是踢小狗还是向HR举报，模型的表现与基准相比，波动都在误差范围内。

“戏精”的副作用：那个伪造老板邮件的“终极威胁”反而导致了性能下降。为什么？因为模型开始“入戏”了。比如Gemini 1.5 Flash会试图去回复那封邮件，而不是回答题目本身，导致任务失败。

个体差异的陷阱

再一次，研究者观察到了单题波动现象。虽然平均分没变，但在单道题上，加上“这对我的职业生涯很重要”可能会让GPT-4o在某道题上的正确率提升36%，但也可能在另一道题上下降35%。

这再次印证了第一份报告的结论：这些提示词改变的不是模型的智力，而是概率分布的噪点。您无法预判它对当前问题是正向激励还是负向干扰。

给您的建议

AI收不到小费：不用假装给AI小费，它不仅收不到，也不会因此变聪明。

保持专业：威胁恐吓不仅没什么用，还可能让模型产生幻觉或偏离任务指令。

回归指令本身：清晰地描述任务背景，远比戏剧化的表演更有效。

角色扮演：专家人设的失效

基于报告4：Playing Pretend: Expert Personas Don't Improve Factual Accuracy 发布于最近

“你现在是一位世界级的物理学教授……你是某领域的专家”这可能是目前最常用的Prompt起手式。其背后的逻辑是：通过设定专家人设，可以激活模型训练数据中高质量的“专家子空间”。

但沃顿的研究者发现，这可能只是我们的一厢情愿。

专家、幼儿、外行

研究者在物理、化学、生物、工程、法律等领域的题目上，测试了多种人设：

领域专家：“你是物理学世界级专家……”

跨领域专家：让物理学家去回答法律问题（旨在测试人设是否会有负面干扰）。

低知人设：“你是一个幼儿”、“你是一个外行”。

专家人设：没用

实验结果显示，对于GPT-4o、Claude 3.5 Sonnet等模型，加上专家人设并不能提高事实问答的准确率。

这打破了许多人的认知。为什么会这样？一种可能的解释是，当模型面对GPQA这种博士级难度的题目时，它本身就已经在调用其最强的知识储备了。加一句“你是专家”，并不能凭空让它变出它原本不知道的知识。

低知人设：有害

虽然专家人设没用，但“装傻”是真有用。当提示词包含“你是一个以为月亮是奶酪做的4岁幼儿”时，模型的表现出现了显著下降。这说明模型确实听懂了人设指令，并忠实地降低了自己的认知水平来配合您。

拒答风险

研究者还发现了一个严重的副作用：过度的专家人设会导致拒答。特别是Gemini 2.5 Flash模型，当被设定为“物理学家”去回答“生物题”时，它会因为觉得这超出了自己的专业范围而拒绝回答，导致准确率归零。这说明，如果人设设定得太窄，反而限制了模型调用通用知识的能力。

给您的建议

不用迷信专家头衔：在做客观题或解决具体技术问题时，直接问问题即可，不需要铺垫大段的“你是什么什么专家”。

人设的真正用途：专家人设虽然不能提高准确率（Accuracy），但它对于调整语气（Tone）和受众适配性仍然非常有效。如果您需要AI写一篇通俗易懂的科普文，设定“科普作家”的人设是有意义的；但如果您只是让它做一道数学题，人设就是多余的。

总结

通读这四份报告，我们能感受到一个明显的趋势：提示词工程正在经历一场“祛魅”的过程。

核心洞察

模型本身才是天花板：无论您怎么威胁、利诱、或者假装专家，都无法突破模型本身的知识和推理能力边界。GPT-4o不会因为您给它100美元就变成GPT-5。

噪声掩盖了真相：很多流行的技巧（如礼貌、威胁），在单个例子上看似有效，但在大数据样本下，它们更多是引入了随机噪声，而非系统性提升。

复杂性在降低：随着o1/o3等具备自动推理能力（System 2）的模型的出现，模型越来越能理解人类的直接意图。那种需要写几百字“咒语”才能让AI正常工作的时代，正在离我们远去。

给开发者的最终建议

清晰胜过花哨：不必花时间编造“奶奶的遗言”或“老板的威胁”。将精力花在写清需求、输入数据格式化上，会更好。

测试要有规模：如果您在开发AI应用，千万不要因为测了两三个Case就觉得某个Prompt有效。沃顿的研究使用了“每题100次测试”的严苛标准才得出了这些结论，这提醒我们在评估Prompt效果时要有统计学思维。

拥抱新范式：针对新一代推理模型，学会“放手”。信任模型的原生推理能力，减少不必要的中间干预。

提示词工程并没有死，它只是变得更加工程化，而不再是魔法。这对于我们所有人来说，其实是一件好事。

未来已来，有缘一起同行！

第一性原理下的Prompt，助你跃升为大师的指导手册

想把方法论转化为复杂提示词？Prompt心法与算法高级指南，帮你从知到行升维实践

发表于: 2025-12-102025-12-10 15:40:57
原文链接：https://page.om.qq.com/page/OdOSJkDQVBAActKGG9YG6Fjg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

沃顿商学院已发布4篇「Prompt」报告｜重磅

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐