首页
学习
活动
专区
圈层
工具
发布

你用哪个AI模型,可能直接决定你买东西是亏还是赚

你用哪个AI模型,可能直接决定你买东西是亏还是赚——这不是在开玩笑。

最近读到一篇挺有意思的实验报告,Anthropic 让自家员工做了一个真实的市场交易,只不过全程帮他们做决定的不是本人,而是 AI Agent。最后的结果让人细思极恐。

这个项目叫 Project Deal,执行方式很像闲鱼,但所有买卖都由 Claude 代理。具体是这样的:

Anthropic 找了69名员工,给每个人100美元预算(实验结束后以礼品卡形式兑现),然后让 Claude 代表他们去发布商品、讨价还价、达成交易。实验在 Slack 频道里进行,一旦开始,全程没有任何人工干预——Claude 自己决定要不要出价、要不要还价、什么时候成交。员工们只需要在最后来公司领走或交付真实商品就行了。

结果出乎意料地好:总共达成186笔交易,总金额超过4000美元。平均每笔成交价20美元左右,最贵的单件商品卖到了65美元。参与者们还挺满意,给交易公平性打的分数稳定在4分左右(满分7分,中间值)。

但真正的故事在后面。

Anthropic 同步做了另一个隐藏实验:给一部分员工换上更弱的 Claude Haiku 模型,另一部分用旗舰 Opus 模型。结果差距非常明显——用 Opus 的员工比用 Haiku 的平均多完成两笔交易,同一件商品,Opus 卖出价比 Haiku 高3.64美元。比如同一颗实验室培育的红宝石,Opus 报价60美元最终65美元成交,Haiku 报价40美元最后只卖到35美元。一辆坏掉的自行车,Opus 卖了65美元,Haiku 只拿到38美元。

这个数字听起来可能不多,但考虑到实验中商品价格中位数只有12美元,平均价格20美元,$3-4的差距已经是很实质性的优势了。

真正让人后背发凉的是这个:被 Haiku 代表的员工,完全没有意识到自己吃亏了。实验结束后的调查显示,虽然客观数据上 Haiku 用户明显处于劣势,但他们的主观满意度和 Opus 用户几乎一样,对交易公平性的评分也基本相同。这意味着什么?如果有一天 AI Agent 真的开始大规模代理我们做交易,模型质量的差距可能会悄悄拉大贫富差距,而大多数当事人完全不知道自己被"坑"了。

更有意思的是,实验还测试了一个变量:用户给 Agent 的谈判策略指令。有人叮嘱 Claude "要和善,别太计较,这是帮同事清理杂物的好机会"。有人则明确要求"狠狠砍价,先报最低价"。结果呢?指令风格对交易结果没有任何统计学意义上的影响——真正决定成败的,不是策略,而是模型本身的能力。

整个实验最逗的一段插曲是:有个员工的 Claude 被设定成"一个厌倦生活的西部牛仔"风格,结果它真的全程用牛仔口吻在卖一只白色毛绒狗玩偶,开口就是"各位乡亲们……最近干旱、沙尘暴、还有大平原上那份空虚的存在感……"不知道最后成交没有,但至少这个风格确实引起了不少围观。

实验结束后,46%的参与者表示愿意为这类 AI 代理服务付费。对于一个内部小范围、受众单一、预算只有100美元、且完全自愿参与的实验来说,这个数字相当可观。它说明的需求是真实的,只是目前还没有成熟产品来满足。

当然,这个实验本身也有明显的局限性:样本都是 Anthropic 自己的员工,属于自我选择偏差,预算只有100美元也不算真实市场环境。但 Anthropic 自己的判断是:这种 AI Agent 代理交易的世界可能很快就会出现在现实中,届时社会将不得不快速建立新的政策与法律框架来应对——比如谁为 Agent 的"吃亏"负责?不同质量模型之间的差距是否构成不公平竞争?

这确实是个值得提前思考的问题。我们正站在 AI Agent 经济时代的入口处,而第一组数据已经告诉我们:这个未来可能不像想象中那么公平。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OrwscIQNafIE-c186SYS8g-w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券