
想象一下,如果AI不再仅仅是研究的对象,而是成为研究的主体,能够像人类科学家一样,自主地提出假设、设计实验、编写代码、分析结果,甚至做出超越人类直觉的科学发现,那将是一个怎样的未来?
这听起来像是科幻小说的情节,但一篇来自上海交通大学、SII、GAIR等机构的最新研究论文——《AlphaGo Moment for Model Architecture Discovery》,正在将这一构想变为现实。他们推出了一个名为ASI-ARCH的系统,它不只是一个模型或一个算法,而是一个全自动的、端到端的AI研究科学家。

这篇论文的意义非同凡响,它不仅成功发现了106个超越人类顶尖水平的全新神经网络架构,更重要的是,它首次用经验数据证明了:科学发现本身,可以像算力一样被扩展。这或许预示着,我们正站在一个由AI驱动的、科学研究呈指数级增长的新时代的门槛上。
接下来,就让我们一起深入探索,这个被誉为模型架构发现领域的“AlphaGo时刻”,究竟是如何实现的。
近年来,我们见证了AI能力的爆炸式增长,从GPT系列到Sora,AI模型的能力边界在以惊人的速度扩展。然而,一个根本性的悖论也随之浮现:尽管AI的能力呈指数级增长,但AI研究本身的进展速度,却受限于人类研究员的认知能力、工作效率和创新灵感。
在神经网络架构设计这个核心领域,这一瓶颈尤为突出。从LeNet到Transformer,再到Mamba,每一次重大的架构突破都极大地推动了AI的发展。但这些突破往往依赖于少数顶尖科学家的灵光一现和长时间的试错,这个过程充满了不确定性,且无法被有效地规模化。
传统的神经架构搜索(Neural Architecture Search, NAS)技术虽然能自动化地在人类预先设定的搜索空间内寻找最优参数组合,但这更像是一种“自动化优化”,而非“自动化创新”。它无法跳出人类设定的框架,去发现全新的、颠覆性的设计范式。

因此,论文的研究动机非常明确:我们能否创造一个AI系统,让它自己来做AI研究?这个系统需要具备真正意义上的创新能力,能够自主地探索人类未曾设想过的架构空间,从而彻底打破当前AI研究的“人力瓶颈”,将科学发现从一个依赖人类智慧的线性过程,转变为一个计算可扩展的指数过程。这便是ASI-ARCH诞生的初衷,也是它所承载的巨大价值。
ASI-ARCH的贡献是多层次的,它不仅产出了一批性能卓越的模型,更重要的是,它建立了一套全新的、由AI驱动的科研范式。
2.1 首个全自主AI研究框架(ASI4AI Framework):
ASI-ARCH是第一个被验证成功的、用于AI研究的通用人工智能(ASI4AI)框架。它整合了一个多智能体系统,能够独立自主地完成从提出假说 -> 编码实现 -> 实验验证 -> 归纳分析的完整科学研究闭环。这标志着AI的角色从“工具”向“科学家”的转变。
2.2 发现106个SOTA架构:
在超过20,000 GPU小时的自主运行中,ASI-ARCH在极具挑战性的线性注意力领域,成功发现了106个全新的、达到业界顶尖(SOTA)水平的架构。这些架构并非对现有设计的小修小补,而是展现出了新颖的设计原则,系统性地超越了Mamba2等由人类专家精心设计的模型。
2.3 首次确立“科学发现的缩放定律”(Computational Scaling of Discovery):
这是本篇论文最深刻、最具影响力的贡献之一。如下图所示,论文通过实验数据绘制了一条“累计发现的SOTA架构数量”与“消耗的GPU小时数”的关系曲线。

图1:科学发现的缩放定律。横轴为计算时间,纵轴为新发现的SOTA架构数量,呈现出惊人的线性关系。
这条清晰的线性增长曲线雄辩地证明了一个革命性的观点:科学突破是可以被量化的,并且可以通过投入更多的计算资源来稳定地、可预测地获得。这彻底改变了我们对科学研究不可预测、依赖灵感的传统认知。
2.4 揭示AI的创新机制:
通过对系统演化过程的深入分析,论文还揭示了AI是如何进行创新的。研究发现,最顶尖的AI设计,其灵感更多地来源于对自身历史实验的分析与反思(Experience),而非简单地模仿或重组人类已有的知识(Cognition)。这表明ASI-ARCH具备了更高层次的抽象和推理能力,是其能够超越人类设计的关键。
ASI-ARCH的强大之处在于其精巧的系统设计。我们可以把它想象成一个由四位顶尖AI智能体组成的、7x24小时不间断工作的科研团队,它们分工明确、配合默契,共同驱动着架构的演化。

图4:ASI-ARCH的四模块闭环框架
如何评价一个新架构的好坏,并以此来引导演化方向?如果只看性能分数,系统很容易学会“奖励黑客”(Reward Hacking),即为了刷高分数而产生一些毫无实用价值、甚至存在缺陷的设计。
为了解决这个问题,ASI-ARCH设计了一个非常巧妙的复合型适应度函数(Fitness Function):

这个函数包含三个部分:

:这两项是定量评估。 它们分别代表新架构相比于基线模型,在训练损失和基准测试得分上的提升。这里使用了一个Sigmoid函数对提升值进行处理,这样做有两个好处:一是能放大微小的、但可能有意义的性能提升;二是能抑制极端的高分,防止某个指标的偶然性暴涨主导整个评估,引导系统进行更稳健的优化。

:这是定性评估 也是整个适应度函数的点睛之笔。系统引入了一个独立的、扮演“专家评委”角色的LLM。它会从架构的创新性、结构的复杂性、实现的优雅程度、收敛特性等多个维度,对新设计进行综合打分,模拟人类专家的主观判断。
通过将定量与定性评估相结合,ASI-ARCH确保了演化过程不仅追求高性能,更追求高质量、有创意的“好设计”。
为了在有限的计算资源下实现最高效的探索,系统还采用了两个关键策略:
探索-验证(Exploration-then-Verification)策略:这是一个两阶段的流程。

两层采样(Two-Tier Selection)演化策略:为了平衡利用和探索,系统在选择父代进行繁衍时,会从历史最优的Top 10架构中随机选择一个作为直接修改的父本,确保了演化建立在成功的经验之上。同时,会从Top 11-50中随机选择4个作为参考样本,为研究员智能体提供多样化的设计模式和灵感,避免过早地陷入局部最优。
通过这套精巧的机制,ASI-ARCH构建了一个强大、高效且能持续自我进化的自动化科研系统。
ASI-ARCH的有效性并非停留在理论层面,论文提供了大量坚实的实验数据来证明其强大的能力。

表1是整篇论文中最具说服力的结果之一。它将ASI-ARCH发现的5个顶尖模型,与Mamba2、Gated DeltaNet等由人类专家设计的SOTA模型进行了正面比较。

表1:模型性能对比。AI发现的模型(以回形针图标标识)在平均分上全面领先。
从数据中可以清晰地看到:
这些数据无可辩驳地证明了,ASI-ARCH不仅能够自主研究,而且其研究成果的质量已经达到了甚至超越了人类顶尖专家的水平。
那么,ASI-ARCH的这些绝妙创意究竟从何而来?是简单地模仿和组合人类的知识,还是真正产生了新的理解?论文通过一个精巧的溯源分析(表3)回答了这个问题。
研究人员将模型创意的来源分为三类:

表3:设计思想来源对比。
分析结果揭示了一个深刻的模式:
这个发现至关重要。它表明,虽然ASI-ARCH从人类知识起步,但要实现真正的、导致性能突破的创新,关键在于对自身探索过程的深刻反思和抽象学习。它学会了从自己的成功和失败中总结规律,这正是人类科学家最核心的能力之一,也证明了ASI-ARCH正在走向更高层次的智能。

ASI-ARCH无疑为AI的未来发展打开了一扇全新的大门,但它也只是一个开始。论文作者坦诚地指出了当前工作的局限性,这也为我们指明了未来的研究方向:
总而言之,ASI-ARCH的出现,不仅仅是技术上的一次飞跃,更是科研理念上的一次深刻变革。它雄辩地证明了,AI有潜力成为我们探索未知世界最强大的伙伴。一个由AI科学家和人类科学家并肩协作、共同加速科学发现的新纪元,或许已经悄然开启。让我们拭目以待。
参考文献
论文名称: AlphaGo Moment for Model Architecture Discovery
第一作者: 上海交通大学
论文链接: https://arxiv.org/pdf/2507.18074
发表日期: 2025年7月24日
GitHub:https://github.com/GAIR-NLP/ASI-Arch.git
你好,我是唐国梁Tommy,专注于分享AI前沿技术。
#AI #人工智能 #AI论文解读 #唐国梁Tommy #AI大模型 #多模态大模型 #计算机技术