你用哪个AI模型，可能直接决定你买东西是亏还是赚

文章来源：企鹅号 - 米小韦

你用哪个AI模型，可能直接决定你买东西是亏还是赚——这不是在开玩笑。

最近读到一篇挺有意思的实验报告，Anthropic 让自家员工做了一个真实的市场交易，只不过全程帮他们做决定的不是本人，而是 AI Agent。最后的结果让人细思极恐。

这个项目叫 Project Deal，执行方式很像闲鱼，但所有买卖都由 Claude 代理。具体是这样的：

Anthropic 找了69名员工，给每个人100美元预算（实验结束后以礼品卡形式兑现），然后让 Claude 代表他们去发布商品、讨价还价、达成交易。实验在 Slack 频道里进行，一旦开始，全程没有任何人工干预——Claude 自己决定要不要出价、要不要还价、什么时候成交。员工们只需要在最后来公司领走或交付真实商品就行了。

结果出乎意料地好：总共达成186笔交易，总金额超过4000美元。平均每笔成交价20美元左右，最贵的单件商品卖到了65美元。参与者们还挺满意，给交易公平性打的分数稳定在4分左右（满分7分，中间值）。

但真正的故事在后面。

Anthropic 同步做了另一个隐藏实验：给一部分员工换上更弱的 Claude Haiku 模型，另一部分用旗舰 Opus 模型。结果差距非常明显——用 Opus 的员工比用 Haiku 的平均多完成两笔交易，同一件商品，Opus 卖出价比 Haiku 高3.64美元。比如同一颗实验室培育的红宝石，Opus 报价60美元最终65美元成交，Haiku 报价40美元最后只卖到35美元。一辆坏掉的自行车，Opus 卖了65美元，Haiku 只拿到38美元。

这个数字听起来可能不多，但考虑到实验中商品价格中位数只有12美元，平均价格20美元，$3-4的差距已经是很实质性的优势了。

真正让人后背发凉的是这个：被 Haiku 代表的员工，完全没有意识到自己吃亏了。实验结束后的调查显示，虽然客观数据上 Haiku 用户明显处于劣势，但他们的主观满意度和 Opus 用户几乎一样，对交易公平性的评分也基本相同。这意味着什么？如果有一天 AI Agent 真的开始大规模代理我们做交易，模型质量的差距可能会悄悄拉大贫富差距，而大多数当事人完全不知道自己被"坑"了。

更有意思的是，实验还测试了一个变量：用户给 Agent 的谈判策略指令。有人叮嘱 Claude "要和善，别太计较，这是帮同事清理杂物的好机会"。有人则明确要求"狠狠砍价，先报最低价"。结果呢？指令风格对交易结果没有任何统计学意义上的影响——真正决定成败的，不是策略，而是模型本身的能力。

整个实验最逗的一段插曲是：有个员工的 Claude 被设定成"一个厌倦生活的西部牛仔"风格，结果它真的全程用牛仔口吻在卖一只白色毛绒狗玩偶，开口就是"各位乡亲们……最近干旱、沙尘暴、还有大平原上那份空虚的存在感……"不知道最后成交没有，但至少这个风格确实引起了不少围观。

实验结束后，46%的参与者表示愿意为这类 AI 代理服务付费。对于一个内部小范围、受众单一、预算只有100美元、且完全自愿参与的实验来说，这个数字相当可观。它说明的需求是真实的，只是目前还没有成熟产品来满足。

当然，这个实验本身也有明显的局限性：样本都是 Anthropic 自己的员工，属于自我选择偏差，预算只有100美元也不算真实市场环境。但 Anthropic 自己的判断是：这种 AI Agent 代理交易的世界可能很快就会出现在现实中，届时社会将不得不快速建立新的政策与法律框架来应对——比如谁为 Agent 的"吃亏"负责？不同质量模型之间的差距是否构成不公平竞争？

这确实是个值得提前思考的问题。我们正站在 AI Agent 经济时代的入口处，而第一组数据已经告诉我们：这个未来可能不像想象中那么公平。

发表于: 19小时前2026-04-26 18:52:21
原文链接：https://page.om.qq.com/page/OrwscIQNafIE-c186SYS8g-w0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

你用哪个AI模型，可能直接决定你买东西是亏还是赚

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐