首页
学习
活动
专区
圈层
工具
发布

一次假期的提示词清理,省下2000万美元

Lovable工程师Benjamin Verbeek分享了一个令人惊叹的案例:假期里他重新审视了公司的系统提示词,结果不仅让产品速度提升4%、设计质量显著改善,还意外地为公司每年节省了2000万美元的LLM成本。

这件事的起点很简单——假期是难得的“退后一步看全局”的时机。他从头阅读LLM的调用记录,没有带着特定目标,只是想看看整体情况。结果发现,系统提示词是从很多不同地方动态拼接而成的,随着时间推移,已经积累了大量问题:重复内容、前后矛盾、表述冗长。

更有意思的是,他几乎能从提示词里看到工程师们的思维轨迹:“X效果不够好,让我再加一句强调”。问题在于,每加一句话,就隐性地稀释了其他部分的权重。过一阵子另一个工程师发现Y需要更多关注,于是又加一句。如此循环往复,提示词变得臃肿而失衡。

他的做法并不复杂:删除重复、精简语言、保持原有的意图平衡。先手动处理了前几段,然后让Claude Opus按同样风格完成剩余部分,最后逐行审查差异,把一些关键内容补回去。

作为实验物理学家出身的工程师,他对实验设计有天然的敏感。假期做这件事有个好处——同期几乎没有其他代码变更,任何问题都能直接归因。他先手动审查所有改动,列出可能出错的清单,测试边缘案例,跑完整的基准评估。确认没有明显问题后,先向小部分用户推出,借助完善的监控指标逐步验证,让统计数据说话。几天后,结果清晰地指向成功。

有人问他AI能否自动完成这类优化。他的回答很清醒:难点在于定义什么是“好”。不能简单地说“优化这些指标”,否则模型会走捷径、钻空子,最终产出的东西失去灵魂。

三条经验值得记住:

第一,提示词质量在规模化时会产生复利效应。省下的每一个token、提升的每一点准确率,乘以海量调用次数,就是巨大的成本差异。

第二,整体视角胜过“更用力地提示”。当你发现某个功能效果不好时,本能反应是加更多指令。但这往往是饮鸩止渴,真正需要的是退后一步,审视全局的平衡。

第三,快速、安全的实验能力是超能力。好的测试流程让你敢于触碰那些“没人敢动”的代码。

他自己也承认,这是他职业生涯中最可怕的实验之一。还有个温馨的细节:大部分工作是和他当历史学家的母亲一起完成的。

有时候,最大的改进不来自新功能,而来自对现有系统的重新审视。假期或许正是做这件事的最佳时机。

x.com/benjaminvrbk/status/2009297105458716753

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O8_QRUKDxq4mBjtXAjXbTFTw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券