快速阅读:Google DeepMind发布了一个基于认知科学的AGI评估框架,提出了10项关键认知能力作为衡量标准,并在Kaggle启动黑客松邀请研究者共建评估基准。与此同时,社区对LLM是否代表通向AGI的正确路径展开激烈讨论。
Google试图用一套认知分类学来量化AGI进展:感知、生成、注意力、学习、记忆、推理、元认知、执行功能、问题解决和社交认知。他们还启动了一个20万美元奖金的Kaggle竞赛,让社区帮忙设计评估工具。
听起来很学术,但问题在于——这套框架本身就暴露了我们对AGI定义的混乱。
有观点一针见血地指出:一个20万年前的穴居婴儿如果在现代养育,智力水平不会比今天的人差。真正的智能不是知识堆砌,而是那种能够推理、想象、创造的内核。LLM擅长的是从海量文本中提取模式,这和人类的认知方式根本就是两码事。
更讽刺的是,Google选择用众包的方式来定义评估标准。有网友调侃:“AGI现在被定义为'能赚一万亿美元利润的东西'。”这不是在测量智能,这是在移动球门柱。
LLM确实在很多任务上表现惊人,但把“能做很多事”等同于“通用智能”是个危险的误区。它们像一面镜子,映射出人类在语言中留下的痕迹,却没有自己的世界模型。每次对话结束,它们就“死”了,下次开启是全新的。这种没有连续性的存在,谈何意识?
真正值得关注的不是这些框架,而是我们为什么如此急切地想要证明已经接近AGI。也许答案很简单:数万亿美元的估值需要一个故事来支撑。
ref: blog.google/innovation-and-ai/models-and-research/google-deepmind/measuring-agi-cognitive-framework/