Karpathy 最近投资了一家叫 Simile 的公司,他的投资逻辑很有意思:我们一直在用错误的方式理解大模型。
通常我们和大模型对话时,它扮演的是一个精心设计的单一人格。但如果回到预训练的原始状态,大模型的本质其实是一个模拟引擎,它在互联网上海量人群的文本中训练而成。既然如此,为什么只让它模拟一个人?为什么不让它模拟一个群体?
这个视角一旦打开,问题就变得有趣了:如何构建这样的模拟器?如何管理它的熵?模拟的忠实度如何衡量?当这些模拟体形成循环时,会涌现出什么特性?
MIT 的团队已经在做类似的事情,他们用 1.51 亿个智能体模拟整个美国,研究劳动力市场、供应链和生物安全风险。这不是科幻,是正在发生的研究。
有人提出了一个尖锐的问题:一个模型模拟一百个人,本质上还是一个模型的盲区。人格多样性不等于认知多样性。不同的训练数据带来的是不同的失败模式,而不仅仅是不同的观点。
这个批评很到位。但反过来想,如果我们能忠实地模拟一个多样化的群体,就可能观察到意见级联、共识形成、文化漂移这些社会学现象。这意味着可以做那些在真实人类身上无法进行的实验。
熵的管理可能是核心难题。一个在互联网文本上训练的群体模拟器,如果没有结构化的真实锚点,会不可避免地漂移。真正的突破或许在于群体模拟加上持久的结构化记忆。
大多数人还没有内化这个认知:大模型从根本上是一个群体模拟器,而不是单一人格的扮演者。当我们开始认真对待这个本质,新的可能性才刚刚展开。
x.com/karpathy/status/2022041235188580788