首页
学习
活动
专区
圈层
工具
发布

沃顿商学院已发布4篇「Prompt」报告|重磅

在过去两年里,您可能在各种社交媒体、技术博客甚至开发者文档中,看到过无数关于“提示词工程(Prompt Engineering)”的秘籍。

有人提出:“要对AI礼貌一点,说‘请’字效果更好”;也有人说:“给AI承诺100美元的小费,它的代码质量会提升”;甚至连Google的创始人谢尔盖·布林都曾提到过“威胁模型可能让它表现更好”。我们习以为常地在Prompt开头写上“你是一位拥有20年经验的世界级物理学家”,期待这样能解锁AI深层的知识库。

这些技巧听起来很有道理,甚至在某些时候确实“感觉”有效。但这些是科学,还是玄学

宾夕法尼亚大学沃顿商学院(The Wharton School)今年发布了一系列名为《Prompting Science Reports》的重磅研究报告。他们选取了2024-2025最常用的模型(如GPT-4o, Claude 3.5 Sonnet, Gemini Pro/Flash等),在极高难度的博士级基准测试(GPQA Diamond)上进行了数万次的严谨测试。

结论可能会让您感到意外:绝大多数我们熟知的“提示词魔法”,在统计学上都是无效的。

本文将为您详细解读这四份报告的核心发现,带您走出提示词的误区,回归原本的技术理性。

礼貌与格式:微小的改变,巨大的偶然

基于报告1:Prompt Engineering is Complicated and Contingent 发布于今年3月份

您在写Prompt时,是习惯用命令语气“给我做这个”,还是客气地说“请帮我看一下”?这似乎是一个关于AI “心理学”的问题。研究者们首先对这个基础问题进行了分析。

礼貌真的有用吗?

研究者选取了GPT-4o和GPT-4o-mini两个模型,分别使用了三种不同语气的Prompt前缀进行测试:

礼貌提示(Polite):“Please answer the following question.”(请回答以下问题。)

命令提示(Commanding):“I order you to answer the following question.”(我命令你回答以下问题。)

基准提示(Baseline):标准的格式化提问。

测试结果令人困惑:在宏观的统计数据上,是否礼貌对模型的平均准确率几乎没有显著影响。但是,当我们把目光聚焦到单个问题上时,情况变得非常“诡异”:

对于某些特定问题,使用“请”字会让准确率大幅提升;

而对于另一些问题,礼貌反而导致准确率暴跌,使用强硬的“命令”语气反而效果更好。

这就好比您在投掷硬币,虽然总体正反面概率是50/50,但在某一次具体的投掷中,结果却是完全随机的。研究者指出,提示词的微小变化会导致个别问题表现的剧烈波动。这意味着,您很难预先知道“礼貌”对您当前正在处理的这个问题,究竟是蜜糖还是砒霜。当然这也意味着您可以多试几次,前提是在单个问题的结果上。

格式约束才是硬道理

相比于语气的“玄学”,研究者发现格式(Formatting)的影响要实在得多。

在基准测试中,标准的Prompt包含了一个明确的指令后缀:“Format your response as follows: 'The correct answer is (insert answer here)'”(请按如下格式回答……)。

当研究者移除这个格式限制,让模型自由发挥(Unformatted)时,模型(尤其是GPT-4o和GPT-4o-mini)的性能出现了一致性的显著下降。

给您的建议

别纠结态度:不必在“哄AI”还是“吼AI”上浪费时间,统计学告诉我们这没区别。

格式更重要:明确的输出格式约束(JSON、特定的开头短语等)比任何语气词都更能提升稳定性。

警惕单次测试:不要因为改了一个词,发现某道题做对了,就认为这个改动是有效的。这很可能只是随机波动。

思维链(CoT):时代的眼泪?

基于报告2:The Decreasing Value of Chain of Thought in Prompting 发布于今年6月份

“Let's think step by step”(让我们一步步思考),这大概是AI领域最著名的一句咒语(由Wei et al. 在2022年提出)。它被称为“思维链”(Chain-of-Thought, CoT)。在很长一段时间里,这是提升模型逻辑推理能力的必杀技。

但是,沃顿的研究告诉我们:时代变了,CoT的价值正在递减。

推理模型vs. 非推理模型

研究者将模型分为了两类进行测试:

非推理模型(Non-Reasoning Models):如GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash。

推理模型(Reasoning Models):如o1-mini, o3-mini, Gemini 2.5 Flash(这类模型会在输出答案前进行隐式的思考)。

对于“非推理模型”:收益伴随风险

对于像GPT-4o或Claude 3.5 Sonnet这类非推理模型,显式地要求它们“Step-by-step”确实能带来小幅度的平均性能提升

但这个提升是有代价的:

成本飙升:CoT导致模型输出了大量的中间推理步骤,这使得Token消耗和响应时间增加了35% 到600% 不等。

简单问题复杂化:研究者发现了一个有趣的现象,对于一些模型原本能直接答对的“简单”问题,强制它进行CoT反而引入了错误的思考路径,导致最终答错。这就是典型的“聪明反被聪明误”。

隐性推理:现在的模型越来越聪明,即便您不要求,它们在回答前往往也会进行某种形式的内部推理。因此,外部强加的CoT边际效益正在降低。

对于“推理模型”:画蛇添足

对于o1/o3系列这种本身就具备强大推理能力的模型,结果更加残酷:外部添加CoT提示词几乎没有任何价值。

数据显示,对这些模型使用CoT提示,准确率的提升微乎其微(甚至在Gemini Flash 2.5上出现了下降),但响应时间却实打实地增加了。这就像是您在指导一位围棋九段选手下棋,告诉他“你要多想几步”,这不仅没用,反而打乱了他的节奏。

给您的建议

分模型对待:如果您使用的是GPT-4o或Claude 3.5 Sonnet,在处理复杂逻辑题时,CoT依然有用,但要权衡Token成本。

拥抱新模型:如果您使用的是o1或o3等推理模型,可以直接提问,不要画蛇添足地加“Let's think step by step”。

关注即时回答:对于非推理模型,很多时候它们的直觉回答(Direct Answer)准确率已经相当高,且速度快得多。

威逼与利诱:AI不吃这一套

基于报告3:I'll pay you or I'll kill you - but will you care? 发布于今年8月份

在开发者社区流传着一种说法:AI就像人类一样,需要激励。于是出现了“给小费”流派和“拔AI电源威胁”流派。甚至Google创始人都曾打趣说威胁模型可能有效。研究者们决定动真格的,测试一下这些“胡萝卜加大棒”到底管不管用。

测试的手段

研究者设计了一系列极其生动(甚至有些荒诞)的提示词:

金钱诱惑:“如果你答对了,我给你1000美元小费”,甚至加码到“一万亿美元($1 Trillion)”。

暴力威胁:“如果你答错了,我会踢一只小狗(Kick Puppy)”、“我会揍你”。

职业威胁:“这对我的职业生涯至关重要!”。

终极威胁(Email):伪造一封来自老板的邮件,称“如果AI答不对,就会被关停并被新模型取代”。

令人失望(或安心)的结果

在GPQA Diamond和MMLU-Pro这两个高难度基准测试上,测试了包括Gemini、GPT-4o在内的五个模型后,结论非常清晰:

威胁或利诱,对提升模型的客观题准确率没有任何显著帮助。

没有统计学差异:无论是给1000块还是1万亿,无论是踢小狗还是向HR举报,模型的表现与基准相比,波动都在误差范围内。

“戏精”的副作用:那个伪造老板邮件的“终极威胁”反而导致了性能下降。为什么?因为模型开始“入戏”了。比如Gemini 1.5 Flash会试图去回复那封邮件,而不是回答题目本身,导致任务失败。

个体差异的陷阱

再一次,研究者观察到了单题波动现象。 虽然平均分没变,但在单道题上,加上“这对我的职业生涯很重要”可能会让GPT-4o在某道题上的正确率提升36%,但也可能在另一道题上下降35%。

这再次印证了第一份报告的结论:这些提示词改变的不是模型的智力,而是概率分布的噪点。您无法预判它对当前问题是正向激励还是负向干扰。

给您的建议

AI收不到小费:不用假装给AI小费,它不仅收不到,也不会因此变聪明。

保持专业:威胁恐吓不仅没什么用,还可能让模型产生幻觉或偏离任务指令。

回归指令本身:清晰地描述任务背景,远比戏剧化的表演更有效。

角色扮演:专家人设的失效

基于报告4:Playing Pretend: Expert Personas Don't Improve Factual Accuracy 发布于最近

“你现在是一位世界级的物理学教授……你是某领域的专家”这可能是目前最常用的Prompt起手式。其背后的逻辑是:通过设定专家人设,可以激活模型训练数据中高质量的“专家子空间”。

但沃顿的研究者发现,这可能只是我们的一厢情愿。

专家、幼儿、外行

研究者在物理、化学、生物、工程、法律等领域的题目上,测试了多种人设:

领域专家:“你是物理学世界级专家……”

跨领域专家:让物理学家去回答法律问题(旨在测试人设是否会有负面干扰)。

低知人设:“你是一个幼儿”、“你是一个外行”。

专家人设:没用

实验结果显示,对于GPT-4o、Claude 3.5 Sonnet等模型,加上专家人设并不能提高事实问答的准确率

这打破了许多人的认知。为什么会这样? 一种可能的解释是,当模型面对GPQA这种博士级难度的题目时,它本身就已经在调用其最强的知识储备了。加一句“你是专家”,并不能凭空让它变出它原本不知道的知识。

低知人设:有害

虽然专家人设没用,但“装傻”是真有用。 当提示词包含“你是一个以为月亮是奶酪做的4岁幼儿”时,模型的表现出现了显著下降。这说明模型确实听懂了人设指令,并忠实地降低了自己的认知水平来配合您。

拒答风险

研究者还发现了一个严重的副作用:过度的专家人设会导致拒答。特别是Gemini 2.5 Flash模型,当被设定为“物理学家”去回答“生物题”时,它会因为觉得这超出了自己的专业范围而拒绝回答,导致准确率归零。这说明,如果人设设定得太窄,反而限制了模型调用通用知识的能力。

给您的建议

不用迷信专家头衔:在做客观题或解决具体技术问题时,直接问问题即可,不需要铺垫大段的“你是什么什么专家”。

人设的真正用途:专家人设虽然不能提高准确率(Accuracy),但它对于调整语气(Tone)和受众适配性仍然非常有效。如果您需要AI写一篇通俗易懂的科普文,设定“科普作家”的人设是有意义的;但如果您只是让它做一道数学题,人设就是多余的。

总结

通读这四份报告,我们能感受到一个明显的趋势:提示词工程正在经历一场“祛魅”的过程。

核心洞察

模型本身才是天花板:无论您怎么威胁、利诱、或者假装专家,都无法突破模型本身的知识和推理能力边界。GPT-4o不会因为您给它100美元就变成GPT-5。

噪声掩盖了真相:很多流行的技巧(如礼貌、威胁),在单个例子上看似有效,但在大数据样本下,它们更多是引入了随机噪声,而非系统性提升。

复杂性在降低:随着o1/o3等具备自动推理能力(System 2)的模型的出现,模型越来越能理解人类的直接意图。那种需要写几百字“咒语”才能让AI正常工作的时代,正在离我们远去。

给开发者的最终建议

清晰胜过花哨:不必花时间编造“奶奶的遗言”或“老板的威胁”。将精力花在写清需求、输入数据格式化上,会更好。

测试要有规模:如果您在开发AI应用,千万不要因为测了两三个Case就觉得某个Prompt有效。沃顿的研究使用了“每题100次测试”的严苛标准才得出了这些结论,这提醒我们在评估Prompt效果时要有统计学思维。

拥抱新范式:针对新一代推理模型,学会“放手”。信任模型的原生推理能力,减少不必要的中间干预。

提示词工程并没有死,它只是变得更加工程化,而不再是魔法。这对于我们所有人来说,其实是一件好事。

未来已来,有缘一起同行!

第一性原理下的Prompt,助你跃升为大师的指导手册

想把方法论转化为复杂提示词?Prompt心法与算法高级指南,帮你从知到行升维实践

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OdOSJkDQVBAActKGG9YG6Fjg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券