
提示词工程的故事,是一个问题逐渐被回答的过程:AI 身上那些惊人的能力,到底是需要重新训练才能获得,还是一直在那里,只是等人找到正确的方式去唤醒它?
2022 年,东京大学一个叫 Kojima 的博士生在实验室里随手敲下一句话:
"Let's think step by step."(咱们一步步想。)
他把它塞进一个大语言模型的输入框,没抱什么希望。结果让他愣住了——模型做数学题的准确率从 17% 直接跳到了 78%。
能力一直在模型里。只是之前没人知道怎么把它叫出来。
这就是提示词工程(Prompt Engineering)要解决的问题。
提示词工程,说白了就是:怎么跟 AI 说话,才能让它给出你真正想要的答案。 它不是编程,更像是写说明书——只不过收件人是个能读字的机器。你说得清楚,它就答得明白;你说得含糊,它就开始瞎编。
在 GPT-3 出现之前,想让 AI 学会一个新任务,你得收集大量标注数据,对它进行微调(fine-tuning)。这就像每换一道菜就得重新备料、调整火候——只有大公司和顶级实验室才玩得起。
2020 年 5 月,OpenAI 发布了 GPT-3,一个拥有 1750 亿参数的巨型模型。论文标题直接点明了它的核心能力:"Language Models are Few-Shot Learners"——翻译过来就是:你不用专门微调,给它看几个例子,它当场就能完成新任务。
这项能力后来被称为"上下文学习"(in-context learning)。打个比方:你给一个新员工一份现场操作手册,他照着做就能完成任务——但这不意味着他"学会"了这个技能,他只是临时参考了你给的信息。GPT-3 也是如此:模型的参数没有改变,它只是在你给的例子里找到了模式来指导本次回答。
但一个问题也随之而来:同样的任务,换一种说法,AI 的表现天差地别。
"请总结这篇文章"和"请用三句话概括这篇文章的核心观点",得到的答案质量完全不同。AI 确实能听懂人话了——但"听不听话",全看你怎么说。
2022 年发生了三件事。它们加在一起,把提示词从一个实验室技巧变成了每个人都能用的工具。
拐点一:Chain-of-Thought(2022 年 1 月)
Google 的研究团队做了一件事:他们在给 AI 看例题的时候,不光告诉它答案,还手写了中间每一步的推理过程。论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》(思维链提示激发大语言模型的推理能力)显示,这种方法让 AI 在复杂数学和逻辑题上的准确率大幅提升。
思路很简单:你不是让 AI 直接猜答案,而是给它示范"怎么想"。效果很震撼。
拐点二:Kojima 的发现(2022 年 5 月)
如果说 Chain-of-Thought 是给了 AI 一本"思考说明书",Kojima 的发现则更惊人——你根本不需要写说明书。加一句话就够了。
Kojima 后来回忆发现过程时是这么说的:
"一开始我们试图人工设计复杂的推理格式……但尝试了各种想法都失败了。当没什么可试的时候,我想与其让人来设计复杂的思考过程,不如让 LLM 自己来想,'Let's think step by step' 这句话突然浮现在脑海中,试了一下没抱希望,结果居然有用(笑)。"
来看看这句话到底有多大的魔力:
任务 | 标准提示 | 加上"Let's think step by step" |
|---|---|---|
MultiArith(算术推理) | 17.7% | 78.7% |
GSM8K(小学数学题) | 10.4% | 40.7% |
Coin Flip(硬币翻转推理) | 12.8% | 91.4% |
Date Understanding(日期逻辑) | 49.3% | 67.5% |
Coin Flip 那一行尤其说明问题:从"基本不会"到"几乎全会",中间只隔了一句话。(数据来源:Kojima et al., 2022, Table 1)
这篇论文《Large Language Models are Zero-Shot Reasoners》截至 2024 年 5 月已被引用超 2000 次,此后持续快速增长,是提示词工程领域被引用最多的论文之一。
拐点三:ChatGPT 上线(2022 年 11 月)
11 月 30 日,OpenAI 把 ChatGPT 放到了网上。两个月内用户破亿。
在这之前,"提示词工程"是挂在 arXiv 论文里的术语。在这之后,它变成了无数普通人在对话框里摸索的事情。你不需要懂机器学习,不需要会写代码——你只需要打字。
这三个事件加在一起,完成了一件事:提示词从研究人员的秘密武器,变成了任何人的日常对话。
2023 年,"提示词工程师"成了科技圈最热门的词之一。
Anthropic(OpenAI 的竞争对手)开出了 17.5 万到 33.5 万美元的年薪招聘这个岗位,引发全网热议。据 Indeed Hiring Lab 数据,招聘网站上"Prompt Engineer"的搜索量从 2023 年 1 月的每百万次搜索中只出现 2 次,飙升到 4 月的 144 次,涨了 70 多倍。
与此同时,社区开始自发总结各种"咒语指南"。GitHub 上的 awesome-chatgpt-prompts 项目成为热门资源库,吴恩达(Andrew Ng)通过 DeepLearning.AI 与 OpenAI 合作推出了课程《ChatGPT Prompt Engineering for Developers》,推动系统化学习。常见技巧被归纳为几大类:
技巧 | 通俗解释 | 例子 |
|---|---|---|
角色扮演 | 给 AI 一个身份,它会在那个身份下思考和回答 | "你是一名资深产品经理,请评估以下需求……" |
思维链 | 让 AI 展示推理过程,而不是直接给结论 | "先列出关键因素,再逐一分析,最后给出建议。" |
Few-shot 示例 | 给 AI 看一到两个你满意的答案范例 | "以下是我想要的回答风格:[示例],请按这个风格回答:" |
ReAct | 让 AI 推理与行动交替:思考→行动→观察结果→再思考 | "请搜索相关资料,根据结果分析,若信息不足则补充搜索,最后给出结论。" |
但这些技巧有一个共同的"软肋":它们高度依赖于你用的是哪个模型。 换一个版本、换一家公司的模型,同样的"咒语"可能就失灵了——就像给南方人解释东北话的梗,对方可能完全 get 不到。
2024 年,风向变了。
OpenAI 在 9 月发布了 o1 推理模型——它在回答之前会自动进行内部推理(虽然这个过程对用户不可见),效果上相当于模型自己会"思考"了,不再需要你在提示词里手把手教它怎么一步步想。
这一变化引发了一个流传很广的观点:"提示词工程师是世上最短命的职业。" Indeed 上相关岗位的搜索量回落到了每百万次 20 到 30 次。微软 2024 年工作趋势指数报告也显示,"提示词工程师"是企业最不愿新增的岗位之一。
但事情的另一面也在悄然发生:让程序自动搜索最优提示词,而不是人手工一遍遍地试。
斯坦福大学推出了 DSPy 这样的框架,Anthropic 发布了 Prompt Improver 工具——它能自动分析和优化你的提示词,帮你把一段含糊的指令改写成更清晰、更有效的版本。Google 也发布了面向开发者的提示设计指南,尝试把这件事系统化。
我们可以用一个通俗的类比来理解这个转折:
过去写提示词像"炒菜凭手感"——老师傅知道什么时候该下盐,但说不出具体克数。到了 2024 年,这个领域有了"菜谱和量杯"——过程可以复现,结果可以验证。
维度 | 2022-2023 | 2024 之后 |
|---|---|---|
谁来决定提示词? | 人手工编写,反复试 | 程序自动搜索最优组合 |
怎么验证效果? | 逐条尝试,凭经验和直觉 | 系统化 A/B 测试,数据驱动 |
对普通用户意味着什么? | 你需要学会"咒语"、记模板 | 你只需要说清楚你要什么 |
这件事的本质是:提示词工程正在从一门"玄学手艺"变成一项"工程实践"。 它不再是你有多懂 AI 的较量,而是你有多懂自己需求的镜子。
提示词工程的工具和技巧在四年里换了好几轮,但有一件事从 2022 年到现在从来没变过:你仍然需要把自己的模糊想法,变成一个 AI 能执行的清晰指令。
这件事和写需求文档、和同事对齐目标没有本质区别——都需要你把背景、边界、期望说清楚,把暗示变成明说,把模糊变成具体。
在 AI 逐渐渗透进每一个工作岗位的时代,会和机器高效沟通这件事,正在像打字一样,从一项专业技能变成一项基础能力。 四十年前,"会打字"是简历上亮眼的加分项;今天,你不会打字几乎没法工作。也许十年后,"会跟 AI 说清楚话"也会是同样的处境。
回到开头的 Kojima。
那句话 "Let's think step by step" 之所以被记住,不是因为它是一句神奇咒语——事实上,随着模型越来越聪明,这句话的作用正在减弱。它之所以重要,是因为它说明了一件更本质的事:
你不需要成为 AI 专家,你只需要学会把话说清楚。
这大概是提示词工程走了四年之后,留给我们最朴素、也最重要的结论。
本文基于公开论文、行业报告和开发者社区记录整理。关键数据来源:Wei et al. (2022, arXiv:2201.11903); Kojima et al. (2022, arXiv:2205.11916); 东京大学松尾研究室 Kojima 采访(2024.6, weblab.t.u-tokyo.ac.jp); OpenAI GPT-3 技术报告; Indeed 招聘趋势数据。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。