LLM能说服你，也能说服你相信完全相反的事

文章来源：企鹅号 - AI可可AI生活

快速阅读： Karpathy花四小时用LLM打磨论点，觉得无懈可击，然后让它论证反方，被当场说服。LLM不是真理机器，是说服机器，这个差异比大多数人意识到的要重要得多。

Andrej Karpathy最近发了条帖子，简洁到有点喜剧效果：写好一篇博文，用LLM磨了四小时论证，感觉天衣无缝，心情很好。然后随手让它论证反方观点，LLM把自己的论点彻底拆烂，而且他被说服了。

然后他写了个“lol”。

这个“lol”背后其实是个严肃的问题。LLM不在乎你的论点是什么，它在乎你让它说什么。它优化的是局部连贯性和听起来有说服力，不是真相。所以它可以帮你把一个烂论点打磨得光可鉴人，也可以在五分钟内把它拆成碎片，用的是同等水平的PhD腔调。

有网友一针见血：“如果它能流利地论证两面，说明的是它的修辞能力，不是你论证的正确性。被说服只代表你的反驳门槛太低。”

也有观点认为，这个特性反过来可以用。与其把LLM当思想的放大器，不如当压力测试机。在发文前，专门让它找你论点的三个最大漏洞，让它扮演最挑剔的批评者而不是最热情的编辑。还有人在构建multi-agent系统，让不同模型盲评、相互攻击，用隔离上下文的方式对抗天然的讨好倾向。

真正的问题是：我们习惯用“听起来有没有道理”来判断一个论点好不好。LLM恰好极其擅长让任何东西都听起来有道理。我们过去缺的不是正确答案，是足够好的反驳。现在这个障碍消失了，却多了一个新问题：你愿不愿意在发布前主动让它把你的论点砸烂一遍？

ref: x.com/karpathy/status/2037921699824607591

相关快讯