自我进化的“AI大脑”，ASI-ARCH系统和它发现的106个“神级”架构全解析

唐国梁Tommy

发布于 2026-06-25 20:57:42

文章被收录于专栏：TGLTommyAI前沿技术论文TGLTommyAI前沿技术论文

想象一下，如果AI不再仅仅是研究的对象，而是成为研究的主体，能够像人类科学家一样，自主地提出假设、设计实验、编写代码、分析结果，甚至做出超越人类直觉的科学发现，那将是一个怎样的未来？

这听起来像是科幻小说的情节，但一篇来自上海交通大学、SII、GAIR等机构的最新研究论文——《AlphaGo Moment for Model Architecture Discovery》，正在将这一构想变为现实。他们推出了一个名为ASI-ARCH的系统，它不只是一个模型或一个算法，而是一个全自动的、端到端的AI研究科学家。

这篇论文的意义非同凡响，它不仅成功发现了106个超越人类顶尖水平的全新神经网络架构，更重要的是，它首次用经验数据证明了：科学发现本身，可以像算力一样被扩展。这或许预示着，我们正站在一个由AI驱动的、科学研究呈指数级增长的新时代的门槛上。

接下来，就让我们一起深入探索，这个被誉为模型架构发现领域的“AlphaGo时刻”，究竟是如何实现的。

一、打破AI研究的“人力瓶颈”

近年来，我们见证了AI能力的爆炸式增长，从GPT系列到Sora，AI模型的能力边界在以惊人的速度扩展。然而，一个根本性的悖论也随之浮现：尽管AI的能力呈指数级增长，但AI研究本身的进展速度，却受限于人类研究员的认知能力、工作效率和创新灵感。

在神经网络架构设计这个核心领域，这一瓶颈尤为突出。从LeNet到Transformer，再到Mamba，每一次重大的架构突破都极大地推动了AI的发展。但这些突破往往依赖于少数顶尖科学家的灵光一现和长时间的试错，这个过程充满了不确定性，且无法被有效地规模化。

传统的神经架构搜索（Neural Architecture Search, NAS）技术虽然能自动化地在人类预先设定的搜索空间内寻找最优参数组合，但这更像是一种“自动化优化”，而非“自动化创新”。它无法跳出人类设定的框架，去发现全新的、颠覆性的设计范式。

因此，论文的研究动机非常明确：我们能否创造一个AI系统，让它自己来做AI研究？这个系统需要具备真正意义上的创新能力，能够自主地探索人类未曾设想过的架构空间，从而彻底打破当前AI研究的“人力瓶颈”，将科学发现从一个依赖人类智慧的线性过程，转变为一个计算可扩展的指数过程。这便是ASI-ARCH诞生的初衷，也是它所承载的巨大价值。

二、不止于发现新架构，更在于定义新范式

ASI-ARCH的贡献是多层次的，它不仅产出了一批性能卓越的模型，更重要的是，它建立了一套全新的、由AI驱动的科研范式。

2.1 首个全自主AI研究框架（ASI4AI Framework）：

ASI-ARCH是第一个被验证成功的、用于AI研究的通用人工智能（ASI4AI）框架。它整合了一个多智能体系统，能够独立自主地完成从提出假说 -> 编码实现 -> 实验验证 -> 归纳分析的完整科学研究闭环。这标志着AI的角色从“工具”向“科学家”的转变。

2.2 发现106个SOTA架构：

在超过20,000 GPU小时的自主运行中，ASI-ARCH在极具挑战性的线性注意力领域，成功发现了106个全新的、达到业界顶尖（SOTA）水平的架构。这些架构并非对现有设计的小修小补，而是展现出了新颖的设计原则，系统性地超越了Mamba2等由人类专家精心设计的模型。

2.3 首次确立“科学发现的缩放定律”（Computational Scaling of Discovery）：

这是本篇论文最深刻、最具影响力的贡献之一。如下图所示，论文通过实验数据绘制了一条“累计发现的SOTA架构数量”与“消耗的GPU小时数”的关系曲线。

图1：科学发现的缩放定律。横轴为计算时间，纵轴为新发现的SOTA架构数量，呈现出惊人的线性关系。

这条清晰的线性增长曲线雄辩地证明了一个革命性的观点：科学突破是可以被量化的，并且可以通过投入更多的计算资源来稳定地、可预测地获得。这彻底改变了我们对科学研究不可预测、依赖灵感的传统认知。

2.4 揭示AI的创新机制：

通过对系统演化过程的深入分析，论文还揭示了AI是如何进行创新的。研究发现，最顶尖的AI设计，其灵感更多地来源于对自身历史实验的分析与反思（Experience），而非简单地模仿或重组人类已有的知识（Cognition）。这表明ASI-ARCH具备了更高层次的抽象和推理能力，是其能够超越人类设计的关键。

三、方法解析：一个高效、自主、不知疲倦的AI科研团队

ASI-ARCH的强大之处在于其精巧的系统设计。我们可以把它想象成一个由四位顶尖AI智能体组成的、7x24小时不间断工作的科研团队，它们分工明确、配合默契，共同驱动着架构的演化。

图4：ASI-ARCH的四模块闭环框架

3.1 团队成员与分工

认知库（Cognition Base） - 知识渊博的“图书管理员”这个模块是ASI-ARCH的知识基础。研究团队首先精选了近100篇线性注意力领域的开创性论文，然后利用一个专用的LLM将这些论文的核心思想、算法、适用场景和历史背景，提炼并结构化成一个庞大的知识库。当系统需要灵感时，可以随时从中检索。
研究员（Researcher） - 充满创意的“首席科学家”这是系统的“大脑”，负责提出新的研究方向。在每一轮演化中，它会从历史实验中挑选出表现优异的“父代”架构，并结合从认知库中检索到的相关人类知识，提出一个全新的、有详细动机说明的架构修改方案。
工程师（Engineer） - 能力超强的“博士后”这是系统的“双手”，负责将“研究员”的想法变成现实。它接收设计方案，自动编写出完整的、可执行的PyTorch代码。更强大的是，它具备强大的自我修正能力。如果在模型训练中遇到任何Bug（无论是语法错误还是更深层的逻辑错误），它都能自动分析错误日志，定位问题，并修改代码，然后重新提交训练，直到成功为止。这个机制确保了任何有潜力的好点子，都不会因为小小的代码失误而被过早放弃。
分析师（Analyst） - 深刻反思的“理论家”这是系统的“反思者”，负责从实验结果中提炼洞见。当“工程师”完成一次实验后，“分析师”会拿到所有的实验数据（如损失曲线、各项性能指标等）。它不仅会评估当前实验的成败，还会将其与演化树上的父代、兄弟代节点进行对比分析，以推断出某个特定的架构改动究竟带来了什么影响。这种“类比消融研究”得出的新洞见，会被归档到历史经验中，成为“研究员”下一轮创新的宝贵依据。

3.2 演化的驱动力：一个杜绝“刷分”的适应度函数

如何评价一个新架构的好坏，并以此来引导演化方向？如果只看性能分数，系统很容易学会“奖励黑客”（Reward Hacking），即为了刷高分数而产生一些毫无实用价值、甚至存在缺陷的设计。

为了解决这个问题，ASI-ARCH设计了一个非常巧妙的复合型适应度函数（Fitness Function）：

这个函数包含三个部分：

：这两项是定量评估。它们分别代表新架构相比于基线模型，在训练损失和基准测试得分上的提升。这里使用了一个Sigmoid函数对提升值进行处理，这样做有两个好处：一是能放大微小的、但可能有意义的性能提升；二是能抑制极端的高分，防止某个指标的偶然性暴涨主导整个评估，引导系统进行更稳健的优化。

：这是定性评估 也是整个适应度函数的点睛之笔。系统引入了一个独立的、扮演“专家评委”角色的LLM。它会从架构的创新性、结构的复杂性、实现的优雅程度、收敛特性等多个维度，对新设计进行综合打分，模拟人类专家的主观判断。

通过将定量与定性评估相结合，ASI-ARCH确保了演化过程不仅追求高性能，更追求高质量、有创意的“好设计”。

3.3 平衡效率与效果的策略

为了在有限的计算资源下实现最高效的探索，系统还采用了两个关键策略：

探索-验证（Exploration-then-Verification）策略：这是一个两阶段的流程。

探索阶段：使用小规模模型（约20M参数）在较小的数据集上进行快速、广泛的探索。这个阶段的目标是“广撒网”，以低成本快速筛选出成百上千个有潜力的候选架构。
验证阶段：将探索阶段中脱颖而出的精英候选架构，放大到大规模模型（340M参数），并在更大的数据集上进行严格的训练和验证，与人类设计的SOTA模型进行最终的巅峰对决。

两层采样（Two-Tier Selection）演化策略：为了平衡利用和探索，系统在选择父代进行繁衍时，会从历史最优的Top 10架构中随机选择一个作为直接修改的父本，确保了演化建立在成功的经验之上。同时，会从Top 11-50中随机选择4个作为参考样本，为研究员智能体提供多样化的设计模式和灵感，避免过早地陷入局部最优。

通过这套精巧的机制，ASI-ARCH构建了一个强大、高效且能持续自我进化的自动化科研系统。

四、实验结果与分析：用数据证明“AI科学家”的诞生

ASI-ARCH的有效性并非停留在理论层面，论文提供了大量坚实的实验数据来证明其强大的能力。

4.1 实验设置

基线模型：实验以一个强大的线性注意力模型DeltaNet作为初始基线和主要的比较对象。
实验流程：严格遵循前述的“探索-验证”两阶段策略。探索阶段使用20M参数模型，在1B tokens数据上训练；验证阶段则将优胜者放大至340M参数，在15B tokens数据上进行训练。
评价指标：模型的性能评估在一个包含10个任务的综合基准上进行，涵盖了语言建模（如WikiText）、常识推理（如HellaSwag, PIQA）、科学问答（如ARC）等多个方面，力求全面。

4.2 AI发现的架构全面超越人类SOTA

表1是整篇论文中最具说服力的结果之一。它将ASI-ARCH发现的5个顶尖模型，与Mamba2、Gated DeltaNet等由人类专家设计的SOTA模型进行了正面比较。

表1：模型性能对比。AI发现的模型（以回形针图标标识）在平均分上全面领先。

从数据中可以清晰地看到：

AI发现的PathGateFusionNet以48.51的平均分位居榜首。
AI发现的其他模型，如ContentSharpRouter (48.34)和HierGateNet (48.24)，其性能也都稳定地超越了人类设计的Mamba2 (47.84) 和Gated DeltaNet (47.32)。

这些数据无可辩驳地证明了，ASI-ARCH不仅能够自主研究，而且其研究成果的质量已经达到了甚至超越了人类顶尖专家的水平。

4.3 揭示AI的创新源泉：“自我反思”是进化的关键

那么，ASI-ARCH的这些绝妙创意究竟从何而来？是简单地模仿和组合人类的知识，还是真正产生了新的理解？论文通过一个精巧的溯源分析（表3）回答了这个问题。

研究人员将模型创意的来源分为三类：

认知（Cognition）：源自于对人类现有论文知识库的学习和借鉴。
经验（Experience）：源自于对自身历史实验结果的分析、总结和归纳。
原创（Originality）：无法追溯到前两者的、似乎是凭空产生的全新想法。

表3：设计思想来源对比。

分析结果揭示了一个深刻的模式：

在所有生成的架构中，大部分灵感（51.7%）来自于对人类知识的认知。
然而，当我们聚焦于那106个最顶尖的“模型画廊”（Model Gallery）架构时，情况发生了逆转：来源于“经验”的比例显著上升至44.8%，超过了来源于认知的48.6%（原文为48.6%，图表为44.8%，此处按图表数据）。

这个发现至关重要。它表明，虽然ASI-ARCH从人类知识起步，但要实现真正的、导致性能突破的创新，关键在于对自身探索过程的深刻反思和抽象学习。它学会了从自己的成功和失败中总结规律，这正是人类科学家最核心的能力之一，也证明了ASI-ARCH正在走向更高层次的智能。

五、启示与未来展望

ASI-ARCH无疑为AI的未来发展打开了一扇全新的大门，但它也只是一个开始。论文作者坦诚地指出了当前工作的局限性，这也为我们指明了未来的研究方向：

从单一走向多元：当前系统是从一个单一架构（DeltaNet）开始演化的。未来可以尝试从一个包含多种不同范式（如Transformer、SSM、CNN等）的“创世种群”开始，这或许能催生出我们今天无法想象的全新架构家族。
将工程效率纳入考量：目前系统主要关注模型的理论性能。未来的版本可以将硬件感知能力整合进适应度函数，让系统在探索时自动考虑模型的实际部署延迟、功耗和内存占用，从而发现兼具高性能和高效率的实用架构。
框架的自我进化：ASI-ARCH本身也是一个复杂的AI系统。一个更激动人心的想法是，未来是否可以构建一个“元ASI-ARCH”，让AI来自动优化ASI-ARCH自身的设计，例如动态调整其内部模块、优化提示工程，实现AI科研框架的自我进化。

总而言之，ASI-ARCH的出现，不仅仅是技术上的一次飞跃，更是科研理念上的一次深刻变革。它雄辩地证明了，AI有潜力成为我们探索未知世界最强大的伙伴。一个由AI科学家和人类科学家并肩协作、共同加速科学发现的新纪元，或许已经悄然开启。让我们拭目以待。

参考文献

论文名称: AlphaGo Moment for Model Architecture Discovery

第一作者: 上海交通大学

论文链接: https://arxiv.org/pdf/2507.18074

发表日期: 2025年7月24日

GitHub：https://github.com/GAIR-NLP/ASI-Arch.git

你好，我是唐国梁Tommy，专注于分享AI前沿技术。

#AI #人工智能 #AI论文解读 #唐国梁Tommy #AI大模型 #多模态大模型 #计算机技术

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-07-30，如有侵权请联系 cloudcommunity@tencent.com 删除

系统