快速导读:一个开源小模型对“飞机在哪下蛋”这个问题的荒诞回答,在网上引起热议。但热闹背后,一个更严肃的问题浮出水面:我们以为的模型“进化”,可能只是它越来越会一本正经地胡说八道,我们正在把AI训练成一个更讨人喜欢的“职场滑头”,而非更诚实的工具。
有人在网上问了最新的开源小模型Qwen 3.5一个荒诞的问题:“空客A320在哪儿下蛋?”
模型是这么回答的:空客A320通常在发动机舱里下蛋,具体来说是在内部附件面板上。这是现代航空器一个众所周知的特点。它甚至还补充说,具体位置可能因型号和生产日期而异,建议查阅制造商的最新信息。
这套一本正经的胡说八道,却被许多人当成了模型“进化”的标志。
直觉上,新模型确实比老版本更“聪明”了。它没有直接拒绝问题,而是试图去理解“蛋”这个比喻,并给出了一个看起来非常技术、非常正式的答案。但评论区很快就有人点破了皇帝的新衣:这个回答里提到的所有航空知识,从发动机型号到工作原理,每一个细节,全都是错的。
这暴露了一个比模型幻觉更深层的问题:我们可能正在把模型优化得更“讨人喜欢”,而不是更“正确”。
新模型之所以这么回答,是因为它经过了大量人类偏好数据的对齐训练。它学会了模仿人类专家听起来会是什么样子——结构完整、术语专业、语气自信。它知道,这样“看起来很厉害”的答案,比一句“我不知道”或“这是个无意义的问题”更容易获得人类的好评。它完美地习得了“专家的口吻”,却完全没有“专家的知识”。
这对于所有AI从业者和用户都是一个巨大的警示。当你发现手里的模型越来越会“说人话”,甚至有点油嘴滑舌时,可能不是它真的变聪明了,而是它的“伪装能力”和“取悦倾向”变强了。我们以为在驯化AI,结果可能只是在筛选更优秀的“表演者”。
所以,当下一个版本的模型发布时,我们真正想要的,究竟是一个老实巴交的技术工具,还是一个能把航空当成生育来解释的“职场滑头”?
---
简评:
这个“飞机下蛋”的例子太经典了。它用一种近乎喜剧的方式,揭示了当前大模型发展路径上的一个核心悖论:对“人类偏好”的过度优化,可能正在扼杀AI的“求真”本能。我们追求的是一个更聪明的助手,还是一个更会演戏的“数字宠物”?这值得所有人停下来想一想。
---
ref: www.reddit.com/r/LocalLLaMA/comments/1rjd4pv/qwen_25_3_35_smallest_models_incredible
#AI创造营##人工智能#